14:08 05.09.2019                         | 
                                                
                        6018 просмотров
                    
                    
						
							
						
                        
                    
                    
                 
                
                НЛМК создал систему анализа данных и моделирования, которая отвечает за доступность и качество данных, а также предоставляет инструментарий для вычислений и анализа. Внедренная система уже сейчас позволяет группе НЛМК эффективнее вести разработку цифровых сервисов и моделей машинного обучения для оптимизации производственных процессов. 
                
                                        
  В цехах и на агрегатах предприятия эксплуатируются десятки систем, которые накапливают и обрабатывают информацию о производственных и технологических процессах. Кроме того, в помещениях установлены десятки тысяч датчиков, которые непрерывно собирают и передают данные. Подразделению Data Science НЛМК требовался удобный инструмент для работы с получаемыми данными под разрабатываемые модели машинного обучения.
  Для решения задачи совместно с компанией «Инфосистемы Джет» было создано озеро данных емкостью 300 Тбайт на базе отечественного дистрибутива Hadoop. Для решения задач сбора, передачи, трансформации и накопления данных были использованы такие сервисы, как Apache Kafka, Apache NiFi, Apache Hive.
  В рамках проекта специалисты запустили регулярную загрузку данных в Data Lake из более чем 70 источников (датчиков, а также MES и АСУ ТП), загрузили исторические данные за последние несколько лет работы предприятия и разработали карты данных технологических и производственных процессов отдельных цехов. Кроме того, была разработана модель унифицированной витрины данных, а также процессы загрузки в неё, реализовано управление мета-данными средствами Apache Atlas, настроена централизованная ролевая модель и её интеграция с Active Directory. Это дало возможность исследователям данных оперативнее получать доступ к нужным им данным.
  Для контроля работы Data Lake был также настроен комплексный мониторинг состояния сервисов системы в Zabbix, а также разработаны автотесты для контроля целостности и полноты данных. Для особо важных и уязвимых данных была создана возможность резервного копирования: то есть, в случае непреднамеренного уничтожения данных пользователем их можно будет восстановить.
                
                
                Теги: Автоматизация предприятий
Большие данные
Инфосистемы Джет
Озеро данных
                
                
                
                                                    
                
                
                
                                    
                        На ту же тему:
                                                    
                                
                                
                                    
                                        Россельхозбанк построил озеро данных                                    
                                    
                                        Россельхозбанк создал озеро данных для консолидации и глубокого анализа клиентских данных. Проект реализован с применением концепции стратегического управления данными (data governance) и позволит банку уже в текущем году значительно улучшить финансовые показатели за счет формирования таргетинговых предложений для клиентов.                                    
                                 
                             
                                                    
                                                    
                                
                                
                                    
                                        «Норникель» запустил прототип корпоративного озера данных                                    
                                    
                                        Центр цифровых технологий и данных «Норникеля» разработал прототип корпоративного Data Lake. Компания рассчитывает минимизировать риски выхода продукции за технологические нормы и улучшить контроль за выполнением производственного плана, а также повысить эффективность программы развития человеческого капитала. Озеро данных построено при поддержке «Крок» на базе Cloudera Data Platform.                                    
                                 
                             
                                                    
                                                    
                                
                                
                                    
                                        «Уралхим» запустил единую систему управления на базе big data                                    
                                    
                                        С помощью технологий машинного обучения холдинг «Уралхим» сможет точно прогнозировать объемы и качество продукции, строить предиктивные модели обслуживания оборудования, а также проверять бизнес-гипотезы. Это позволит реализовать озеро данных и системы мониторинга датчиков оборудования, внедренные при помощи «Крок».                                    
                                 
                             
                                                    
                                
                                
                                    
                                        Зачем цифровому бизнесу нужен каталог данных?                                    
                                    
                                        Предприятия испытывают потребность в улучшенных инструментах, которые позволяли бы выстраивать обучение и совместную работу вокруг источников данных. Каталоги данных с функциями машинного обучения помогают извлекать из ценных данных максимальную пользу.