14:08 05.09.2019 |
5282 просмотров
НЛМК создал систему анализа данных и моделирования, которая отвечает за доступность и качество данных, а также предоставляет инструментарий для вычислений и анализа. Внедренная система уже сейчас позволяет группе НЛМК эффективнее вести разработку цифровых сервисов и моделей машинного обучения для оптимизации производственных процессов.
В цехах и на агрегатах предприятия эксплуатируются десятки систем, которые накапливают и обрабатывают информацию о производственных и технологических процессах. Кроме того, в помещениях установлены десятки тысяч датчиков, которые непрерывно собирают и передают данные. Подразделению Data Science НЛМК требовался удобный инструмент для работы с получаемыми данными под разрабатываемые модели машинного обучения.
Для решения задачи совместно с компанией «Инфосистемы Джет» было создано озеро данных емкостью 300 Тбайт на базе отечественного дистрибутива Hadoop. Для решения задач сбора, передачи, трансформации и накопления данных были использованы такие сервисы, как Apache Kafka, Apache NiFi, Apache Hive.
В рамках проекта специалисты запустили регулярную загрузку данных в Data Lake из более чем 70 источников (датчиков, а также MES и АСУ ТП), загрузили исторические данные за последние несколько лет работы предприятия и разработали карты данных технологических и производственных процессов отдельных цехов. Кроме того, была разработана модель унифицированной витрины данных, а также процессы загрузки в неё, реализовано управление мета-данными средствами Apache Atlas, настроена централизованная ролевая модель и её интеграция с Active Directory. Это дало возможность исследователям данных оперативнее получать доступ к нужным им данным.
Для контроля работы Data Lake был также настроен комплексный мониторинг состояния сервисов системы в Zabbix, а также разработаны автотесты для контроля целостности и полноты данных. Для особо важных и уязвимых данных была создана возможность резервного копирования: то есть, в случае непреднамеренного уничтожения данных пользователем их можно будет восстановить.
Теги: Автоматизация предприятий
Большие данные
Инфосистемы Джет
Озеро данных
На ту же тему:
Россельхозбанк построил озеро данных
Россельхозбанк создал озеро данных для консолидации и глубокого анализа клиентских данных. Проект реализован с применением концепции стратегического управления данными (data governance) и позволит банку уже в текущем году значительно улучшить финансовые показатели за счет формирования таргетинговых предложений для клиентов.
«Норникель» запустил прототип корпоративного озера данных
Центр цифровых технологий и данных «Норникеля» разработал прототип корпоративного Data Lake. Компания рассчитывает минимизировать риски выхода продукции за технологические нормы и улучшить контроль за выполнением производственного плана, а также повысить эффективность программы развития человеческого капитала. Озеро данных построено при поддержке «Крок» на базе Cloudera Data Platform.
«Уралхим» запустил единую систему управления на базе big data
С помощью технологий машинного обучения холдинг «Уралхим» сможет точно прогнозировать объемы и качество продукции, строить предиктивные модели обслуживания оборудования, а также проверять бизнес-гипотезы. Это позволит реализовать озеро данных и системы мониторинга датчиков оборудования, внедренные при помощи «Крок».
Зачем цифровому бизнесу нужен каталог данных?
Предприятия испытывают потребность в улучшенных инструментах, которые позволяли бы выстраивать обучение и совместную работу вокруг источников данных. Каталоги данных с функциями машинного обучения помогают извлекать из ценных данных максимальную пользу.