По мере того, как новые технологии и продукты для работы с большими данными выходят на рынок, появляются все новые и новые интересные возможности. Посмотрите, что могут предложить большие данные с точки зрения проектов и инструментов в 2017 году.

Большие данные — это основа успешной аналитики, искусственного интеллекта (ИИ) и машинного обучения (МО), а также важнейший компонент Интернета вещей (IoT). Каждый день появляются новые удивительные проекты и новые инструменты выходят на рынок, поэтому следить за всем этим может быть довольно сложной задачей. Сегодня мы обсудим текущее положение дел в индустрии больших данных, проекты больших данных, на которые стоит обратить внимание, и инструменты больших данных, которые набирают обороты — или медленно исчезают и уходят со сцены.

Состояние дел в индустрии больших данных в 2017 году

В настоящее время большие данные доступны не только таким гигантам, как AWS или Google, Netflix или Microsoft. Популярные поставщики облачных услуг создают рынок доступной аналитики больших данных. Любой бизнес может арендовать только те вычислительные ресурсы, которые ему необходимы для углубленного анализа больших данных и превращения своих хранилищ данных в кладезь полезных бизнес-знаний.

Мы уже описывали истории успеха больших данных нескольких компаний в серии статей в нашем блоге (Часть 1, Часть 2), а также развенчивали 5 самых популярных мифов о больших данных и освещали причины использования больших данных. Данные до того, как это сделают ваши конкуренты. Мы также объяснили, почему управление данными помогает стартапам масштабироваться и добиваться успеха и как использование больших данных помогает стартапам расти.

Проекты больших данных 2017 года

В этом году наше внимание привлекли различные проекты Big Data:

Здравоохранение. Компания по обработке и анализу данных Apixio использует инструменты аналитики больших данных для перекачивания обширных хранилищ медицинских записей, фотографий и изображений. Используя OCR (алгоритм оптического распознавания символов), они индексируют разрозненные неструктурированные данные и превращают их в структурированные записи, чтобы модели ML могли обнаруживать закономерности и зависимости в этих данных. Эта информация имеет решающее значение для выявления закономерностей в таких данных и разработки новых методов лечения.

Сельское хозяйство. По мере того, как все больше и больше технологий проникает в сельскохозяйственный сектор, можно собирать и анализировать огромные массивы данных. Результаты такого анализа могут привести к повышению урожайности, более эффективному использованию топлива и техники и снижению химического загрязнения (как удобрениями, так и пестицидами) экосистемы. MyJohnDeere.com — это платформа для фермеров и сельскохозяйственных предприятий, где они могут использовать свои большие данные для получения еще большего дохода и оптимизации своих расходов.

Исследование Марса. Лаборатория реактивного движения, подразделение НАСА, ответственное за эксплуатацию марсохода Curiosity на Марсе, использовало технологию ElasticSearch. Это помогает им эффективно отслеживать и контролировать несколько миллионов точек данных, отправленных на расстояние более 150 000 000 миль, от Красной планеты до нашей родной планеты. Из-за задержек передачи анализ данных должен быть быстрым, чтобы выбрать наилучший план действий для вездехода. Следующая миссия, которая должна состояться в 2020 году и направлена ​​на обнаружение остатков марсианской жизни, использует ElasticSearch в качестве основной операционной технологии, поскольку для успеха миссии задержка между любым триггером и соответствующим действием должна быть минимальной.

Прогнозирование стихийных бедствий. TerraSeismic, технологическая компания из Джерси, анализирует большие данные, генерируемые спутниками, от датчиков и других входных данных, чтобы прогнозировать стихийные бедствия, такие как землетрясения и цунами, а также помогает предотвращать техногенные катастрофы, такие как утечки нефти или газа в трубопроводах. Эта же система оказалась достаточно эффективной при охране и мониторинге потоков беженцев из различных зон военных конфликтов с 2004 года.

Борьба с организованной преступностью. Полиция активно использует информационные технологии для борьбы с организованной преступностью. Например, объединение результатов программного обеспечения для текстового анализа от BasisTech с платформой CrimeNtel от CI Technologies помогло выследить и арестовать банду Felony Lane, которая действовала в 35 штатах и ​​нанесла ущерб на десятки миллионов долларов. В настоящее время система используется правоохранительными органами США для повышения их эффективности.

Комфортные ежедневные занятия. Netflix и Amazon помогают быстрее находить нужные фильмы или товары, а авиабилеты, номера в отелях и прокат автомобилей можно бронировать дешевле с помощью таких сервисов, как Kayak. Аналитика больших данных открывает новые возможности для всех вовлеченных сторон, и новые горизонты открываются ежедневно.

Изменения в наборе инструментов для работы с большими данными в 2017 году

Поскольку большие данные существуют уже довольно давно, у нас уже есть определенные инструменты для работы с большими данными (такие как Hadoop, Storm или Spark), к которым мы привыкли. Тем не менее, появляются новые решения, и они более зрелые, чем те, что мы использовали еще год назад. Таким образом, пришло время положить некоторые из этих инструментов на полки и никогда не возвращаться к ним, вместо этого используя новые технологии. Вот изменения в наборе инструментов для работы с большими данными, которые вы должны были внести в 2017 году (и некоторые из них следует учесть в 2018 году):

  1. Сократить карту. Это мул, который может выполнить работу, но с возможностями DAG Spark это можно сделать намного быстрее. Таким образом, даже если вы уже привыкли работать с MapReduce, возможно, пришло время поближе познакомиться со Spark.
  2. Шторм. Hortonworks по-прежнему поддерживает Storm, но из-за проблем с задержкой и многочисленных низкоуровневых ошибок продукт находится в глубоком застое. Альтернативы Storm, такие как Flink и Apex, имеют гораздо более чистый код, меньшую задержку и лучше работают со Spark. Обратите внимание на эти инструменты, и вы больше никогда не захотите вернуться к Storm.
  3. Свинья. Похоже, что Pig стал хорошим PL/SQL для использования в проектах с большими данными, однако Spark и многие другие технологии предоставляют те же возможности, но лишены всех недостатков.
  4. Язык Java. Lambda умеет с ним работать, но крайне неуклюже и громоздко. Python предоставляет гораздо лучшие возможности с точки зрения функциональности и простоты масштабирования, даже если ему несколько не хватает производительности.
  5. Флюм. Последний релиз датирован 20 мая 2015 года, и он явно немного устарел. Наблюдается неуклонное снижение количества коммитов с годами, поэтому инструмент в основном остается умирать. StreamSets и Kafka предлагают гораздо лучшую функциональность и более чистый код, поэтому лучше придерживаться их.

Большие данные наконец-то здесь, и они останутся. Компании и стартапы теперь могут получить недорогой доступ к аналитике больших данных и другим функциям через множество сервисов на таких платформах, как AWS, GCP, Azure и им подобных. Проекты больших данных меняют различные отрасли, значительно повышая производительность и снижая расходы, в то время как инструменты больших данных совершенствуются, оставляя позади устаревшее программное обеспечение и подключая более новое, лучшее, более функциональное и надежное программное обеспечение.

Пришло время воспользоваться преимуществами аналитики больших данных для вашего бизнеса или обновить существующие рабочие процессы, чтобы они соответствовали последним тенденциям и использовали самые передовые инструменты!

Изначально я разместил эти материалы в блоге моей компании — https://itsvit.com/big-data/2017-review-big-data-projects-tools/