Сегодня, когда в компаниях практически всех отраслей стремятся получать максимальную отдачу от доступных растущих информационных ресурсов, одними из самых востребованных специалистов стали эксперты по данным (data science).
Ценность этой специальности будет расти и дальше по мере того, как в организациях будут ставить себе на службу всевозможные внутренние и внешние источники информации. В прошлом работа с данными была по большей части технической: сотрудники соответствующих отделов «колдовали» над базами данных, поставляя информационное «топливо» для корпоративных систем, чтобы бизнес-руководители могли готовить отчеты и повышать финансовые результаты.
Технические функции по-прежнему важны, но сегодня восходящими звездами бизнеса становятся специалисты-универсалы, умеющие не только манипулировать огромными объемами информации при помощи статистических методов и наглядных репрезентаций, но и способные точно прогнозировать развитие событий и устранять возможные помехи бизнесу.
Что именно нужно, чтобы стать экспертом в области науки о данных? Перечислим основные качества и навыки, необходимые такому специалисту.
Критическое мышление
Способность критически мыслить необходима для объективного анализа фактов, перед тем как сформулировать мнение или вынести суждение по решаемой проблеме.
Вникнув в суть задачи бизнеса, нужно уметь выделить то, что действительно важно для ее решения, и отбросить несущественное. Этот навык – один из определяющих для специалиста по данным.
Наряду с опытом необходима способность отбрасывать стереотипы. С одной стороны, нужны базовые знания в широком круге областей, с другой – четкое понимание того, что опыт и интуиция не гарантируют стопроцентного успеха. Опыт дает преимущество, но излишняя самоуверенность создает риск, поэтому способность к нешаблонному мышлению имеет большое значение.
Но смысл не в том, чтобы смотреть на любые ситуации широко открытыми глазами новичка, а в том, чтобы оценить проблему под разными углами.
Программирование
Лучшие исследователи данных умеют писать код и способны решать широкий круг задач программирования. Предпочтительным языком программирования для науки о данных становится Python, немало поклонников есть у R. Применяются и другие, в том числе C++, Scala, Closure, Java и Octave.
При этом, помимо общих знаний в области работы с большими объемами данных, с информацией реального времени, облачными сервисами и неструктурированными данными, нужны знания в области статистических методов и моделей – в частности, представление о концепциях регрессии, оптимизации, кластеризации, деревьев принятия решений и т. п.
Если у самого исследователя данных нет навыков программирования, можно положиться на соответствующих специалистов. Партнерство между разработчиком и ученым по данным может быть весьма плодотворным.
Математика
Наука о данных – не лучший выбор для тех, кто не любит математику и не получил соответствующего образования.
Крупным организациям требуется разработка сложнейших статистических моделей финансовой и операционной деятельности, для обеспечения достоверности которых нужны огромные объемы данных. Создание моделей, приносящих реальную пользу при разработке и оптимизации бизнес-стратегий, невозможно без соответствующей математической подготовки.
Ученый по данным должен не только превосходно разбираться в статистике, но и уметь работать в тесном взаимодействии с бизнес-руководителями, а им обычно требуются доходчивые разъяснения происходящего в «черном ящике». Только в этом случае бизнес будет ощущать доверие к полученным вами результатам и предоставленным рекомендациям.
Машинное обучение и искусственный интеллект
Эти направления сегодня развиваются чрезвычайно быстро благодаря росту доступных мощностей, сетевых соединений и возможностей сбора данных. Ученому по данным необходимо быть в курсе последних разработок и понимать области применения различных технологий. Однако стоит избегать внедрения заманчивого новшества, если для решаемой задачи будет достаточно намного менее сложных средств.
Данные «сами» помогут прийти к выбору технологии, когда будет глубокое понимание проблемы и ограничительных условий, включая вычислительные затраты, интерпретируемость, характеристики сети, уровень ожиданий заказчика и т. п.
Вместе с тем нужны навыки в области использования статистических методов. Работодатели не всегда это учитывают, поскольку сегодня широко доступны соответствующие автоматизированные средства, в том числе с открытым кодом. Однако без статистических знаний не будет понимания ограничений таких инструментов.
Недостаточно уметь освоить интерфейсы для работы с готовыми реализациями алгоритмов машинного обучения. Чтобы выбрать подходящий, необходимо понимать статистические методы и принципы предварительной подготовки данных для оптимизации скорости работы модели.
Важны также знания в области компьютерной науки, в частности основ программной инженерии.
Коммуникативные способности
Важность коммуникативных навыков стоит особо подчеркнуть. В службах ИТ сегодня практически ничто не делается «в вакууме»; всегда есть взаимодействие между различными системами, приложениями, данными и людьми. Не исключение и процессы исследования данных, поэтому готовность общаться – одно из важнейших качеств.
Необходимо умение доступно объяснять математические выкладки и превращать их в практические знания. Ученый по данным, работающий на пересечении ИТ, статистических методов и бизнеса, должен быть способным изложить полученные результаты в нужной форме любому из заинтересованных лиц.
Нужно уметь разъяснять топ-менеджерам преимущества данных для бизнеса, возможности технологий и вычислительных ресурсов, проблемы качества данных, приватности и конфиденциальности, а также другие вопросы, имеющие значение для организации.
Иметь хорошие коммуникативные навыки – значит быть способным облечь в доступную форму сложную техническую информацию, но при этом точно и исчерпывающе передать ее смысл. Не стоит забывать, что работа ученого по данным приносит результаты, которые могут и будут использоваться для поддержки руководящих решений.
Исследователю данных нужны знания в области бизнеса и способность задавать верные вопросы бизнес-руководителям, чтобы понять суть проблемы и разобраться, какие именно данные будут полезными для ее решения.
Кроме того, нужно умение разъяснять принцип действия алгоритмов. Способность рассказать, как именно система пришла к тому или иному выводу, важна для завоевания доверия руководства к прогнозным моделям, которые используются в рамках их бизнес-процессов.
Архитектура данных
Понимание всех процессов, через которые проходят данные от источника до создания модели и принятия бизнес-решения, – обязанность ученого по данным.
Отсутствие понимания архитектуры данных ведет к ошибкам в размере выборки и предположениях, обусловливая неверные результаты и решения.
Что еще хуже, может появиться необходимость менять сами элементы архитектуры. Без исходного понимания ее влияния на модели вы можете застрять в бесконечных доработках, раз за разом получая неточные результаты и тщетно пытаясь разобраться в причинах.
Hadoop избавляет от необходимости перемещать большие данные, обрабатывая их в месте хранения, однако знание всех подробностей конвейера обработки по-прежнему важно для обеспечения принятия качественных, обоснованных решений.
Анализ рисков, оптимизация процессов, системная инженерия
Исследователю данных необходимо понимать принципы анализа бизнес-рисков, улучшения процессов и системной инженерии. Соответствующие навыки применяются комплексно как при работе над моделями, так и при взаимодействии с заказчиком, в частности для получения от него исчерпывающих сведений о решаемой задаче.
Для снижения рисков методы их анализа нужно применять с самого начала разработки моделей. Способность выбирать компромиссы между затратами на улучшение процессов и полученными преимуществами, понимание типичных рисков вашей компании и знание потенциального влияния различных систем на ваши данные и предоставляемые результаты помогает повысить удовлетворенность заказчика.
Способность к решению проблем и бизнес-чутье
Ученому по данным необходимы качества, помогающие справляться с проблемными ситуациями. Прежде чем вытащить весь свой арсенал инструментов, исследователь данных рассматривает проблему под многими углами, стараясь вникнуть в суть. Он скрупулезно подходит к своей работе и способен доступно разъяснить полученные результаты.
Именно на эти свойства, помимо склонности к критическому мышлению, следует обращать внимание при найме технического специалиста на должность ученого по данным.
В целом сочетание навыков хорошего ученого по данным выглядит действительно редким: высокие интеллектуальные способности для решения задач обработки данных и создания эффективных моделей, хорошее понимание проблем бизнеса, знание структуры данных и принципов работы различных алгоритмов.
Первое из перечисленного найти проще – необходимые качества обычно есть у большинства выпускников высших учебных заведений с математическими, инженерными и другими техническими специальностями. А вот с изложением принципов действия моделей сложнее. По свидетельству работодателей, весьма распространена ситуация, когда на собеседование приходит человек с опытом построения сложных моделей, но при этом неспособный внятно объяснить, почему именно та или иная модель сработала и на каком основании был выбран конкретный подход к реализации.
Даже если сама модель делает точные прогнозы, без понимания принципа действия доверия к ней будет меньше. Поэтому залогом успешной карьеры на поприще науки о данных будут глубокие познания механизмов работы различных алгоритмов в сочетании с развитой интуицией.
– Bob Violino. Essential skills and traits of elite data scientists. CIO. MAR 27, 2018