Большие Данные и BI в 2017 году: машинное обучение, озера данных и Hadoop против Spark

Тенденции в области Больших Данных и бизнес-анализа, которые, по прогнозу экспертов, получат развитие в 2017 году.

На пороге 2017 года во многих организациях все еще задумывались о том, как лучше всего «заставить работать» доступные данные – начать предоставлять полезные сведения, дающие основания для действий бизнес-пользователям, где бы они ни находились.

Стоимость хранения данных продолжает падать, доступность готовых аналитических решений, предоставляемых в виде сервиса, растет, и организовать доставку ценной информации служащим становится все дешевле и проще.

Перечислим тенденции в области Больших Данных и бизнес-анализа, которые, по прогнозу экспертов, получат развитие в 2017 году.

Освоение машинного обучения

Аналитики компании Ovum выражают уверенность в том, что машинное обучение станет крупнейшим фактором влияния на рынок анализа Больших Данных в 2017 году.

«Использование машинного обучения, которому досталась своя доля рыночной шумихи, продолжит расти, но во многих случаях соответствующие технологии будут встраиваться в приложения и сервисы, а не разрабатываться отдельно, так как лишь немногие компании, не входящие в когорту современных цифровых предприятий, смогут позволить себе штатных ученых по данным», – говорится в отчете Ovum.

Сегодня технологии машинного обучения предлагаются в составе готовых решений, которые значительно упрощают для организаций задачу применения новых методов с имеющимися срезами данных, поэтому можно уверенно говорить о том, что предприятия будут все шире пользоваться средствами прогнозной аналитики, профилирования заказчиков, персонализации, выдачи рекомендаций, предотвращения мошенничества и распознавания угроз.

Не только Hadoop

Apache Hadoop, решение с открытым кодом для распределенного хранения данных, – у всех на устах в отрасли BI уже несколько лет, но сегодня появляются жизнеспособные альтернативы, одна из которых – другой проект Apache – Spark.

Этот движок обработки данных в памяти тоже превозносят в отрасли уже достаточно давно, но, как отмечается в докладе Ovum, сегодня его применение растет благодаря возможности размещения Spark в облаке: «В связи с доступностью облачных версий Spark, систем машинного обучения и сервисов для Интернета вещей у предприятий появляются альтернативы, которые можно рассматривать помимо Hadoop».

Spark и Hadoop – близкие «родственники», но это разные проекты, отмечают в Ovum: «О преимуществах того и другого идут жаркие споры, поскольку, если избавиться от накладных расходов, связанных с типовыми функциями обработки данных и движком хранения (а в случае с Hadoop еще и с YARN), Spark будет работать более эффективно. Но минус в том, что в изолированных кластерах Spark не будет механизмов безопасности и руководства данными, имеющихся в Hadoop».

В компании Tableau, разрабатывающей ПО наглядного представления данных, отмечают, что те, кто пробует Hadoop сегодня впервые, имеют возможность воспользоваться инструментами самостоятельной подготовки данных к загрузке в систему. Они также позволяют представить данные в виде моментальных снимков, благодаря чему исследовать их можно проще и быстрее. Системы, позволяющие конечным пользователям готовить информацию к анализу средствами обработки Больших Данных, предлагают такие компании, как Alteryx, Trifacta и Paxata.

Озера данных

В последние несколько лет на предприятиях есть тенденция перехода к единому источнику данных вместо использования многих разрозненных, чтобы было проще делиться информацией внутри компании. Так что создание озер данных – обширных неструктурированных срезов – новостью в этом году не будет, но 2017-й может стать годом, когда озера данных начнут эксплуатировать более систематизированно.

«Многие компании, первыми начавшие пользоваться озерами данных ради снижения стоимости хранения и обработки, потратили немало средств не только на внедрение, но и на всевозможные сервисы, обеспечивающие агрегацию и предоставление пулов Больших Данных для корреляции и анализа, – говорит Рамон Чен, директор по маркетингу компании Reltio, разработчика системы управления данными. – Учитывая то, что в компаниях, уже осуществляющих проекты в сфере Больших Данных, сегодня осознают потребность в надежной информационной платформе, а новые проекты охватываются универсальной стратегией управления данными, в 2017 году потенциал озер данных может наконец реализоваться в полной мере».

Когда озера данных получат широкое применение, во многих организациях начнут отказываться от традиционно используемых электронных таблиц, уверены в Ovum: «Проблемы, с которыми сталкиваются те, кто внедряет озера данных, обычно связаны с инвентаризацией и защитой информации. Первым логичным шагом для организаций, в которых хотели бы сбросить зависимость от электронных таблиц, будет внедрение систем предварительной подготовки данных. Соответствующие функции сейчас стали стандартом в различных решениях, от систем интеграции данных до аналитических пакетов, поэтому мы ожидаем резкого роста их применения в 2017 году».

Предприятиям по-прежнему нужны ученые по данным

С выходом все большего числа выпускников вузов на рынок труда дефицит ученых по данным, возможно, снижается, но в 2017 году спрос на них еще будет высоким. Согласно исследованию Hired, заработная плата специалистов этого профиля за последние полтора года выросла на 29%, а число приглашений инженеров по данным на собеседования увеличилось за тот же период на 234%.

Переход BI на самообслуживание продолжается

Аарон Олд, глава компании Exasol, разрабатывающей средства анализа данных в памяти, уверен, что в этом году по-прежнему будет расти спрос на системы BI с самообслуживанием – предоставляющие бизнес-пользователям прямой доступ к аналитическим функциям: «Такие инструменты набирают популярность как на крупных предприятиях, так и в стартапах. По мере того как аналитика становится стержнем бизнеса, будет происходить активное освоение соответствующих систем, включая базы данных нового типа, инструменты визуализации наподобие Tableau и средства подготовки данных, такие как Alteryx».

Облачная аналитика

В Tableau прогнозируют, что в облака в этом году будут переводить больше основных хранилищ данных и аналитических рабочих процессов. Перенося свои данные в облако, в компаниях понимают, что там лучше будет разместить и аналитические системы. В этом году «сила тяготения», обусловленная тем, что данные, которые нужно коррелировать для анализа, переносят в место нахождения самого обширного среза, будет заставлять предприятия размещать системы аналитики там же, где находится сама информация, уверены в Tableau. Вырастет популярность облачных хранилищ данных вроде Amazon Redshift, вследствие чего облачные аналитические сервисы получат более широкое применение.

Поточная аналитика

Поточная аналитика – это практика непрерывного мониторинга данных, поступающих в организацию, в отличие от традиционных пакетных способов анализа. Поточные методы полезны для контроля состояния ИТ-сред и производственного оборудования – в 2017-м средства поточной аналитики продолжат пользоваться спросом, с учетом роста заинтересованности организаций во внедрении сред Интернета вещей.

В Ovum отмечают, что концепция поточной аналитики существует уже несколько десятилетий, но благодаря активному развитию средств с открытым кодом барьеры, мешающие ее освоению, снизились. И в 2017 году, с распространением соединенных устройств и Интернета вещей на предприятиях, особенно в отраслях производства и здравоохранения, поточная аналитика может получить по-настоящему широкое применение.

Причина усиления рыночной активности – рост спроса, обусловленный первыми внедрениями Интернета вещей; именно в связи с этим традиционные поставщики технологий начали развивать работающие в режиме реального времени системы датчиков, а также средства анализа их показаний и реагирования, сменившие нишевые решения обработки сложных событий.

***

Освоение обработки Больших Данных остается острой проблемой для предприятий, но благодаря облаку решать соответствующие задачи становится дешевле и проще, что позволяет компаниям извлекать больше пользы из своей информации без найма ученых по данным.

Ведущие операторы общедоступных облаков, включая AWS и Microsoft, недавно опубликовали интерфейсы программирования для работы с функциями машинного обучения, а Google выпустила готовую библиотеку таких функций с открытым кодом – TensorFlow. Благодаря этому в 2017-м методы сложной обработки данных, прежде доступные немногим, смогут стать общеупотребительными.

– Scott Carey. Big data and business intelligence trends 2017: machine learning, data lakes and Hadoop vs Spark. Computerworld UK. December 29, 2016