Вестник цифровой трансформации

Важнейшие навыки эксперта по данным
Важнейшие навыки эксперта по данным




11:03 06.04.2018  |  Боб Вайолино | 5534 просмотров



Специалисты по исследованию и анализу данных сегодня ценятся очень высоко. Чтобы научиться приносить реальную пользу бизнесу с помощью данных, потребуется уникальное сочетание технических навыков, математических способностей, интуиции и умения объяснять.

Сегодня, когда в компаниях практически всех отраслей стремятся получать максимальную отдачу от доступных растущих информационных ресурсов, одними из самых востребованных специалистов стали эксперты по данным (data science).

Ценность этой специальности будет расти и дальше по мере того, как в организациях будут ставить себе на службу всевозможные внутренние и внешние источники информации. В прошлом работа с данными была по большей части технической: сотрудники соответствующих отделов «колдовали» над базами данных, поставляя информационное «топливо» для корпоративных систем, чтобы бизнес-руководители могли готовить отчеты и повышать финансовые результаты.

Технические функции по-прежнему важны, но сегодня восходящими звездами бизнеса становятся специалисты-универсалы, умеющие не только манипулировать огромными объемами информации при помощи статистических методов и наглядных репрезентаций, но и способные точно прогнозировать развитие событий и устранять возможные помехи бизнесу.

Что именно нужно, чтобы стать экспертом в области науки о данных? Перечислим основные качества и навыки, необходимые такому специалисту.

Критическое мышление

Способность критически мыслить необходима для объективного анализа фактов, перед тем как сформулировать мнение или вынести суждение по решаемой проблеме.

Вникнув в суть задачи бизнеса, нужно уметь выделить то, что действительно важно для ее решения, и отбросить несущественное. Этот навык – один из определяющих для специалиста по данным.

Наряду с опытом необходима способность отбрасывать стереотипы. С одной стороны, нужны базовые знания в широком круге областей, с другой – четкое понимание того, что опыт и интуиция не гарантируют стопроцентного успеха. Опыт дает преимущество, но излишняя самоуверенность создает риск, поэтому способность к нешаблонному мышлению имеет большое значение.

Но смысл не в том, чтобы смотреть на любые ситуации широко открытыми глазами новичка, а в том, чтобы оценить проблему под разными углами.

Программирование

Лучшие исследователи данных умеют писать код и способны решать широкий круг задач программирования. Предпочтительным языком программирования для науки о данных становится Python, немало поклонников есть у R. Применяются и другие, в том числе C++, Scala, Closure, Java и Octave.

При этом, помимо общих знаний в области работы с большими объемами данных, с информацией реального времени, облачными сервисами и неструктурированными данными, нужны знания в области статистических методов и моделей – в частности, представление о концепциях регрессии, оптимизации, кластеризации, деревьев принятия решений и т. п.

Если у самого исследователя данных нет навыков программирования, можно положиться на соответствующих специалистов. Партнерство между разработчиком и ученым по данным может быть весьма плодотворным.

Математика

Наука о данных – не лучший выбор для тех, кто не любит математику и не получил соответствующего образования.

Крупным организациям требуется разработка сложнейших статистических моделей финансовой и операционной деятельности, для обеспечения достоверности которых нужны огромные объемы данных. Создание моделей, приносящих реальную пользу при разработке и оптимизации бизнес-стратегий, невозможно без соответствующей математической подготовки.

Ученый по данным должен не только превосходно разбираться в статистике, но и уметь работать в тесном взаимодействии с бизнес-руководителями, а им обычно требуются доходчивые разъяснения происходящего в «черном ящике». Только в этом случае бизнес будет ощущать доверие к полученным вами результатам и предоставленным рекомендациям.

Машинное обучение и искусственный интеллект

Эти направления сегодня развиваются чрезвычайно быстро благодаря росту доступных мощностей, сетевых соединений и возможностей сбора данных. Ученому по данным необходимо быть в курсе последних разработок и понимать области применения различных технологий. Однако стоит избегать внедрения заманчивого новшества, если для решаемой задачи будет достаточно намного менее сложных средств.

Данные «сами» помогут прийти к выбору технологии, когда будет глубокое понимание проблемы и ограничительных условий, включая вычислительные затраты, интерпретируемость, характеристики сети, уровень ожиданий заказчика и т. п.

Вместе с тем нужны навыки в области использования статистических методов. Работодатели не всегда это учитывают, поскольку сегодня широко доступны соответствующие автоматизированные средства, в том числе с открытым кодом. Однако без статистических знаний не будет понимания ограничений таких инструментов.

Недостаточно уметь освоить интерфейсы для работы с готовыми реализациями алгоритмов машинного обучения. Чтобы выбрать подходящий, необходимо понимать статистические методы и принципы предварительной подготовки данных для оптимизации скорости работы модели.

Важны также знания в области компьютерной науки, в частности основ программной инженерии.

Коммуникативные способности

Важность коммуникативных навыков стоит особо подчеркнуть. В службах ИТ сегодня практически ничто не делается «в вакууме»; всегда есть взаимодействие между различными системами, приложениями, данными и людьми. Не исключение и процессы исследования данных, поэтому готовность общаться – одно из важнейших качеств.

Необходимо умение доступно объяснять математические выкладки и превращать их в практические знания. Ученый по данным, работающий на пересечении ИТ, статистических методов и бизнеса, должен быть способным изложить полученные результаты в нужной форме любому из заинтересованных лиц.

Нужно уметь разъяснять топ-менеджерам преимущества данных для бизнеса, возможности технологий и вычислительных ресурсов, проблемы качества данных, приватности и конфиденциальности, а также другие вопросы, имеющие значение для организации.

Иметь хорошие коммуникативные навыки – значит быть способным облечь в доступную форму сложную техническую информацию, но при этом точно и исчерпывающе передать ее смысл. Не стоит забывать, что работа ученого по данным приносит результаты, которые могут и будут использоваться для поддержки руководящих решений.

Исследователю данных нужны знания в области бизнеса и способность задавать верные вопросы бизнес-руководителям, чтобы понять суть проблемы и разобраться, какие именно данные будут полезными для ее решения.

Кроме того, нужно умение разъяснять принцип действия алгоритмов. Способность рассказать, как именно система пришла к тому или иному выводу, важна для завоевания доверия руководства к прогнозным моделям, которые используются в рамках их бизнес-процессов.

Архитектура данных

Понимание всех процессов, через которые проходят данные от источника до создания модели и принятия бизнес-решения, – обязанность ученого по данным.

Отсутствие понимания архитектуры данных ведет к ошибкам в размере выборки и предположениях, обусловливая неверные результаты и решения.

Что еще хуже, может появиться необходимость менять сами элементы архитектуры. Без исходного понимания ее влияния на модели вы можете застрять в бесконечных доработках, раз за разом получая неточные результаты и тщетно пытаясь разобраться в причинах.

Hadoop избавляет от необходимости перемещать большие данные, обрабатывая их в месте хранения, однако знание всех подробностей конвейера обработки по-прежнему важно для обеспечения принятия качественных, обоснованных решений.

Анализ рисков, оптимизация процессов, системная инженерия

Исследователю данных необходимо понимать принципы анализа бизнес-рисков, улучшения процессов и системной инженерии. Соответствующие навыки применяются комплексно как при работе над моделями, так и при взаимодействии с заказчиком, в частности для получения от него исчерпывающих сведений о решаемой задаче.

Для снижения рисков методы их анализа нужно применять с самого начала разработки моделей. Способность выбирать компромиссы между затратами на улучшение процессов и полученными преимуществами, понимание типичных рисков вашей компании и знание потенциального влияния различных систем на ваши данные и предоставляемые результаты помогает повысить удовлетворенность заказчика.

Способность к решению проблем и бизнес-чутье

Ученому по данным необходимы качества, помогающие справляться с проблемными ситуациями. Прежде чем вытащить весь свой арсенал инструментов, исследователь данных рассматривает проблему под многими углами, стараясь вникнуть в суть. Он скрупулезно подходит к своей работе и способен доступно разъяснить полученные результаты.

Именно на эти свойства, помимо склонности к критическому мышлению, следует обращать внимание при найме технического специалиста на должность ученого по данным.

В целом сочетание навыков хорошего ученого по данным выглядит действительно редким: высокие интеллектуальные способности для решения задач обработки данных и создания эффективных моделей, хорошее понимание проблем бизнеса, знание структуры данных и принципов работы различных алгоритмов.

Первое из перечисленного найти проще – необходимые качества обычно есть у большинства выпускников высших учебных заведений с математическими, инженерными и другими техническими специальностями. А вот с изложением принципов действия моделей сложнее. По свидетельству работодателей, весьма распространена ситуация, когда на собеседование приходит человек с опытом построения сложных моделей, но при этом неспособный внятно объяснить, почему именно та или иная модель сработала и на каком основании был выбран конкретный подход к реализации.

Даже если сама модель делает точные прогнозы, без понимания принципа действия доверия к ней будет меньше. Поэтому залогом успешной карьеры на поприще науки о данных будут глубокие познания механизмов работы различных алгоритмов в сочетании с развитой интуицией.

– Bob Violino. Essential skills and traits of elite data scientists. CIO. MAR 27, 2018

Теги: Автоматизация предприятий Аналитика Больших Данных Data Science