Tele2 использует кластер Hadoop для хранения и аналитики данных с 2018 года. За это время в кластер интегрировано более 100 источников данных, а ежедневный объем интегрируемых данных достигает 100 Тбайт. Платформой big data ежедневно пользуются десятки бизнес- и технических команд, при этом основным внутренним клиентом является команда аналитики и монетизации данных. Нагрузка на кластер непрерывно росла, а свободное место уменьшалось. Сложные процессы интеграции данных затрудняли работу команды дата-сайентистов. В связи с этим компания решила разделить архитектуру платформы big data на сегмент обработки данных и сегмент data science.
Для расширения платформы big data Tele2 выбрала продукт RT.DataLake от «Ростелекома» на базе технологии Hadoop. Данное решение показало лучшие показатели по экономии бюджета и совокупной стоимости владения: расчет в рублях за лицензии исключает валютные и санкционные риски, а суммарная экономия за 5 лет составит более 3 млн долл.
Сборка RT.DataLake является одним из самых современных коммерческих дистрибутивов Hadoop в мире – она состоит из самых «свежих» стабильных версий фреймворков и компонент. Это позволяет решить потребности инженеров данных и дата-сайентистов Tele2, которые крайне требовательно относятся к регулярному обновлению версий компонент в кластере. Кроме того, «Ростелеком» показал готовность выполнить кастомизацию дистрибутива под нужды Tele2. Это дало возможность обеспечить необходимый набор используемых версий компонента Hadoop, реализовать добавление функционала в исходный код проекта и предоставить набор средств автоматизации развертывания и управления на базе технологии Ansible.
В решении реализовано разграничение доступа на базе технологии Ranger, внедрен протокол аутентификации Kerberos и выполнена интеграция с корпоративной службой Active Directory. Команда «Ростелекома» регулярно выпускает патчи обновления компонент и устранения угроз информационной безопасности.
Как отмечает Антон Мерзляков, директор по аналитике больших данных Tele2, после расширения платформа big data Tele2 позволяет хранить 6,6 Пбайт данных, состоит из 126 вычислительных узлов суммарной мощностью 9 тыс. ядер и 86 Тбайт оперативной памяти. Мощность расширенного кластера позволяет комфортно работать команде дата-сайентистов и решать самые высоконагруженные задачи.