Наряду с социальными сетями, мобильными и облачными технологиями, анализ и связанные с ним технологии обработки данных в цифровой век превратились в одну из главных движущих сил развития бизнеса. К 2017 году многие компании стали подпитываться данными, а не генерировать их, как прежде, а сами данные и средства их анализа на многих предприятиях превратились в главный центр притяжения. В 2018 году технологии обработки данных должны привносить новые ценности. Рассмотрим подходы, роли и проблемы, которые будут сопровождать дальнейшее развитие стратегий анализа данных в нынешнем году.
Озера данных должны продемонстрировать ценность для бизнеса или уйти в небытие
На протяжении многих лет данные в больших объемах накапливались на предприятиях. Интернет вещей еще сильнее ускорил этот процесс, а источники данных из Web переместились в мобильную сферу и на уровень машин.
Гай Чарчуорд, генеральный директор компании DataTorrent, разработавшей платформу потоковой передачи данных в реальном времени, отмечает, что возникла потребность в масштабировании конвейеров данных экономически эффективным способом.
И действительно, многие предприятия, использовавшие технологии наподобие Apache Hadoop, стали создавать озера данных – корпоративные платформы управления данными для хранения всех данных организации в их исходных форматах. Озера данных призваны были ликвидировать информационную разобщенность, предоставив единое хранилище данных в масштабах всей организации, которое можно было бы использовать в самых разных целях, начиная от бизнес-анализа и заканчивая глубинной обработкой данных. Сырые и неуправляемые, озера данных преподносились как панацея и универсальное место сбора информации.
Но если в качестве хранилищ больших объемов данных они эксплуатировались достаточно успешно, то извлекать из этих данных полезные сведения оказалось весьма затруднительно.
«Озера данных идеально подходили для анализа статических данных в пакетном режиме, – поясняет Чарчуорд. – Однако уже в 2015 году стало ясно, что этой архитектурой злоупотребляют, а сегодня она превратилась в настоящую ахиллесову пяту анализа в реальном времени. Когда требовалось сразу проанализировать только что размещенные данные, это вызывало значительные неудобства. При необходимости оперативно получить представление о текущей ситуации и мгновенно принять необходимые меры компании, полагавшиеся на уже устаревшие события, теряли контроль и не имели возможности реагировать нужным образом. И это лишь одна из областей, где “достаточно хорошее” оказалось стратегически фатальным».
Генеральный директор Splice Machine Монте Цвебен поддерживает эту точку зрения: «Hadoop разочаровывает, и этот процесс идет полным ходом. Многие организации, утонув в своих озерах данных, не могут получить желаемой отдачи из-за сложности неповоротливого вычислительного механизма Hadoop».
«Чтобы выжить в 2018 году, озера данных должны доказать свою ценность для бизнеса», – подчеркнул Кен Хоанг, вице-президент по стратегии и формированию союзов компании Alation, занимающейся каталогами данных: «Новые свалки – озера данных – в последние несколько лет прошли этап экспериментального развертывания, и их ждет постепенная ликвидация, если они не докажут свою ценность. Отличительной чертой успешного озера данных является каталог предприятия, позволяющий совмещать обнаружение информации, искусственный интеллект и информационное обслуживание и помогающий по-новому взглянуть на проблемы бизнеса».
Впрочем, для озер данных еще не все потеряно. Озера данных и другие крупные центры данных могут обрести новую жизнь в так называемых суперцентрах, предлагающих «контекст в качестве сервиса» благодаря использованию методов машинного обучения.
«Развертывание в последние 25 лет крупных центров данных (хранилищ данных, систем управления основными данными, озер данных, сервисов Salesforce и систем ERP) привело к еще большей разобщенности данных. Кроме того, затруднились их понимание, поиск связей и совместное использование, – подчеркнул Хоанг. – Центр, объединяющий другие центры, позволит связать их активы и предоставить контекст в качестве сервиса. А это, в свою очередь, обеспечит еще более мощные и релевантные результаты прогнозирования, которые помогут бизнесу».
Главный архитектор приложений MapR Тед Даннинг предсказывает аналогичный сдвиг: «Когда системы больших данных превратятся в главный центр хранения, доступа и выполнения операций, организации смогут выстроить глобальную структуру данных, предоставляющую исчерпывающий доступ к данным, полученным из множества различных источников, и к вычислениям в действительно многопользовательских системах. Все больше и больше компаний будут рассматривать вычислительные системы с точки зрения потоков данных, а не просто данных, которые только обрабатываются и помещаются в БД. Эти потоки данных охватывают ключевые события бизнеса и отражают его структуру. Объединенная структура данных станет основой для построения таких крупномасштабных потоковых систем».
По мнению Лэнгли Айде, директора по стратегии компании Alteryx, занимающейся анализом данных на условиях самообслуживания, руководители ИТ-служб – не единственные, кто отвечает за извлечение ценностей из озер данных. Ответственность за это в 2018 году будут нести также производственные аналитики и директора по цифровым технологиям.
Большинство аналитиков так и не воспользовались огромными объемами неструктурированных ресурсов (данными о перемещениях, данными Интернета вещей, данными системных журналов и т. д.), которыми наводнены их озера данных. Такая ситуация возникла главным образом потому, что сделать это довольно сложно. Но, честно говоря, аналитики плохо выполняют свою работу, если оставляют эти данные нетронутыми. Многие озера данных остаются неэффективными активами – люди не знают, что там находится, как получить доступ и как извлечь из этих данных полезную информацию. В 2018 году положение дел изменится, поскольку от озер данных хотят получать более высокую отдачу.
По прогнозам Айде, в 2018 году аналитики заменят инструменты «грубой силы» наподобие Excel и SQL технологиями с более высоким уровнем программирования – в частности, каталогизацией данных, которая позволит извлекать из данных добавочную информацию и получать дополнительные ценности.
Возрастание роли директора по цифровым технологиям
В условиях нового толчка к проникновению вглубь данных, в 2018 году директор по цифровым технологиям в полной мере вступит в свои права.
«По сути, данные – это новая нефть. И директор по цифровым технологиям становится фигурой, вокруг которой вращается одна из наиболее важных проблем современных предприятий – извлечение ценностей из данных, – указал Айде. – Зачастую при бюджете менее 10 млн долл. одной из главных задач директора по цифровым технологиям становится превращение широко разрекламированной возможности самообслуживания в реальность за счет переноса корпоративных источников данных ближе к бизнес-пользователям. В 2018 году директор по цифровым технологиям начнет отходить от централизованных функций, а необходимость расширить возможности бизнес-пользователей в конечном итоге приведет к увеличению бюджетов».
Директора по цифровым технологиям, обладающие необходимыми ресурсами, навыками и функционалом, организуют быструю передачу передового опыта из центров компетенции бизнес-пользователям. И ключевую роль в этом сыграют платформы и методологии гибкой разработки.
Появление кураторов данных
Согласно прогнозам Томера Ширана, генерального директора аналитического стартапа Dremio, возглавляющего проект с открытым кодом Apache Arrow, в ближайшее время предприятиям потребуется новая роль куратора данных.
Куратор данных занимает промежуточное положение между потребителями данных (аналитиками и исследователями данных, использующими инструменты Tableau и Python для получения ответов на важные вопросы с помощью данных) и инженерами данных (людьми, которые перемещают данные между системами и преобразуют их посредством скриптовых языков Spark, Hive и MapReduce). Кураторы данных должны понимать значимость данных и применимые к ним технологии.
Куратор данных отвечает за понимание типов анализа, которые должны выполняться различными подразделениями организации, знать, какие наборы данных лучше подходят для этой работы и что необходимо предпринять, чтобы перевести данные из их исходного состояния в форму, которая нужна потребителю данных для выполнения им своей работы. Куратор данных использует различные системы, в том числе платформы самообслуживания, когда требуется ускорить сквозной процесс предоставления потребителям доступа к необходимым им наборам данных, исключив при этом их бесконечное копирование.
Стратегии управления данными станут ключевым вопросом для всех руководителей высшего звена
Общий регламент защиты данных (General Data Protection Regulation, GDPR) Европейского союза вступает в силу 25 мая 2018 года, однако далеко не все предприятия к этому готовы.
«GDPR будет применяться всеми государствами Европейского союза и радикально изменит подход компаний к сбору и обработке данных о гражданах ЕС, – пояснили юристы Global Privacy + Data Security Group компании Morrison & Foerster Мириам Вугмайстер, Локке Мерель и Джон Карлин. – Компании, ранее полагавшиеся на получение согласия для выполнения всех своих операций, больше не смогут делать этого. Им придется действовать на основе другой юридической базы (например, договорной необходимости и законного интереса). Организациям необходимо внедрять совершенно новую систему уведомлений и получения согласия».
Потенциальные штрафы GDPR весьма велики: административные штрафы могут достигать 20 млн евро или 4% общего годового оборота.
«Когда над миром нависла проблема 2000 года, все рассуждали о вероятностях и о том, придется им с ней столкнуться или нет, – заметил технический директор компании Hortonworks Скотт Гнау. – Сегодня едва ли кто-то в полной мере готов во всеоружии встретить вступление GDPR в силу. Многие компании полагаются на директора по безопасности, который должен определить правила, системы и прочие параметры, способные помочь глобальному интегратору выбрать оптимальный план действий. Ждать индивидуального подхода к каждому отдельно взятому клиенту просто нереалистично».
«Выполнение предписаний GDPR требует от руководства информированности, готовности и поддержания связей со всеми элементами организации, – указал Гнау. – Компаниям необходимо улучшить управление своими данными. Но крупные взломы – например, взлом бюро кредитных историй Equifax, о котором стало известно в 2017 году, – говорят о том, что предприятиям приходится искать баланс между предоставлением своим сотрудникам самостоятельного доступа к данным и защитой тех же самых данных от потенциальных угроз. В 2018 году управление данными станет одной из основных тем в повестке дня любой организации. Ключевой целью должна стать разработка системы, которая уравновешивала бы потребность в данных, доступе и анализе на условиях самообслуживания с регулирующими мерами. Путь, который мы изберем при проектировании архитектуры безопасности данных, отразится на каждом – клиентах в США и за границей, СМИ, ваших партнерах и т. д.».
Закари Босин, директор по маркетингу решений компании Veritas Technologies, специализирующейся на управлении данными в различных облаках, считает, что именно американская компания станет одним из первых кандидатов на штраф за несоблюдение GDPR: «Несмотря на приближающийся срок, только 31% организаций, опрошенных Veritas, заявили о выполнении требований GDPR. Штрафы будут очень высоки, а регулирование затронет каждую компанию, имеющую дело с гражданами стран Европейского союза».
Улучшение управления метаданными
Конечно, одним только GDPR дело не ограничивается. Поток данных продолжает расти, и правительства вводят все новые правила регулирования. Сотрудники организаций имеют сейчас больший доступ к данным, чем когда-либо прежде. Все это повышает важность управления данными, а также их качества, интеграции и управления метаданными.
«Необходимость улучшить управление метаданными и обеспечить конфиденциальность данных, в том числе и на основе GDPR, логично дополнит уже сформировавшиеся тенденции развития искусственного интеллекта и Интернета вещей, – подчеркнула старший вице-президент по управлению продуктами компании Infogix Эмили Вашингтон. – Предприятиям все чаще приходится искать способы оптимизации своего технологического стека, если они хотят успешно использовать большие данные и средства анализа, чтобы улучшить клиентское восприятие, достичь бизнес-целей, получить конкурентные преимущества и в конечном итоге занять лидирующие позиции на рынке».
Понадобятся гибкие, интегрированные инструменты, позволяющие пользователям быстро принимать данные, готовить их, анализировать и управлять ими. Управление метаданными будет иметь важное значение для поддержки управления данными, соблюдения действующих норм и выработки требований к управлению данными в корпоративной среде.
Повышение качества данных с помощью прогнозного анализа
По мере того как проекты, связанные с данными, переходят в производственную среду, качество данных вызывает все более серьезное беспокойство. Особенно в условиях, когда Интернет вещей открывает шлюзы их масштабным потокам. В 2018 году организации начнут активно обращаться к алгоритмам машинного обучения для обнаружения аномалий в качестве данных. Используя исторические шаблоны для прогнозирования будущих результатов качества данных, предприятия смогут динамически выявлять аномалии, которые прежде остались бы незамеченными или обнаружились с помощью ручного вмешательства гораздо позже.
В условиях, когда все больше данных генерируется техническими средствами Интернета вещей, усложняется и управление ими. Полная прозрачность ресурсов данных компании будет иметь важнейшее значение для успешной реализации аналитических инициатив, адресации управления данными и нуждами конфиденциальности, монетизации ресурсов данных и решения других задач, которые будут стоять перед организациями в 2018 году.
– Thor Olavsrud. 6 data analytics trends that will dominate 2018. CIO. MAR 15, 2018