ЦОД | Вестник цифровой трансформации | «Директор информационной службы»

ИТ-инфраструктура

Российский рынок ЦОДов в 2024 году

15:49 13.05.2024 | Леонид Юль |

Несмотря на санкции и другие сложности, темпы роста рынка отечественных центров обработки данных в 2024 году сохранятся. Какие факторы и тенденции будут влиять на его развитие? Читать...

На рынке отечественных ЦОДов происходит настоящий бум. Из года в год игроки демонстрируют стабильный рост минимум на 20%, это очень хороший показатель. Уход международных вендоров положительно отразился на развитии компетенций как отечественных производителей решений для дата-центров, так и самих заказчиков. Рассмотрим текущие тенденции и события на рынке ЦОД в 2024 году.

Развиваются высокотехнологичные решения

Все помнят, что в первый год санкций российские вендоры сконцентрировались на выпуске наиболее востребованных простых продуктов. Это привело к возникновению дефицита предложения в нише высокотехнологичного оборудования для ЦОДов. Сейчас ситуация изменилась. Еще в прошлом году отечественные производители начали разработки технологически сложных решений под индивидуальный запрос заказчиков. Это достаточно долгий и затратный процесс. Однако российские вендоры, готовые предложить аналоги зарубежных серверов и систем хранения данных, справляются с поставленными перед ними задачами и демонстрируют положительную динамику.

Усложняются пожелания заказчиков и к производителям инженерных систем. Если еще год назад заказчикам требовались преимущественно фреоновые кондиционеры, то сейчас у них появился интерес к инновационным технологиям охлаждения. Запущено несколько проектов с применением «холодных стен» – в частности, в новом ЦОДе Tier IV одного из крупнейших телекоммуникационных холдингов.

Проекты становятся сложнее

Еще вчера ситуация на рынке требовала от бизнеса сфокусироваться на поддержании работоспособности ЦОДов, а не их модернизации. Теперь заказчики не откладывают технологически сложные проекты на завтра. Некоторые из таких проектов начинались еще в 2021-2022 году. В период кризиса клиентам пришлось самим искать новых вендоров и оборудование, обеспечивать его совместимость с существующими системами. К настоящему моменту эти проекты, хоть и с задержкой, реализованы. Рынок семимильными шагами наверстывает то, что было упущено, и делает это успешно.

Растет число локализованных продуктов

До 2022 года большинство инфраструктурных проектов на 80% и более состояло из оборудования западных брендов. Спустя год к этой цифре уже приблизились решения, преимущественно локализованные в России. На данный момент долю оборудования для ЦОДов, произведенную отечественными компаниями, можно осторожно оценить в 30-50% — в зависимости от того, какие продукты считать российскими.

Приходится отметить: то, что производится в России, зачастую состоит из азиатских компонентов, а то, что привозится в Россию — целиком является азиатским продуктом. В зависимости от формы контракта между компаниями это может быть как полностью локализованное на азиатском рынке изделие, так и заказное решение под брендом и дизайном российского производителя.

На все 100% российской компоновки нет даже, например, у блоков распределения питания на базе процессора «Байкал», которые фактически полностью разработаны и производятся в России. Все основные компоненты у них российские или имеют статус российских. Но мелкие SDM-компоненты в этих блоках все же импортного производства — в России аналогов нет.

Забота о совместимости оборудования стала общей

Изначально задача по обеспечению совместимости оборудования для ЦОДов была прерогативой международных вендоров. Российский бизнес брал оборудование известного производителя, переплачивал за бренд и рассчитывал, что имя вендора будет гарантом качества, в том числе в части совместимости. В большинстве случаев такой подход оправдывал себя. Исключения, само собой, случались, но это происходило не так часто, чтобы придавать большое значение.

Сейчас совместимость оборудования достигается общими усилиями производителя, партнера-инсталлятора и самого клиента. Естественно, переход к такой модели вызвал рост компетенций как у интеграторов, так и у заказчиков. Бизнесу пришлось самому научиться собирать системы из имеющегося на рынке оборудования, проверять их на отсутствие конфликтов и устойчивую работоспособность. От вендоров по-прежнему ждут информационную и техническую поддержку, но времена, когда производителю во всем верили на слово, остались в прошлом.

Комплексных решений становится больше

Поскольку любому клиенту нужна уверенность в сбалансированности решения, российские производители активно конкурируют на рынке комплексных решений для центров обработки данных. В связи с этим трендом хотелось бы отметить три важных момента.

Во-первых, наличие в линейке комплексных решений является ощутимым преимуществом вендора только в том случае, если он действительно гарантирует взаимодействие всех подсистем. Например, у C3 Solutions есть реализованный проект для «СПБ Биржи», в котором было необходимо модернизировать серверную площадку компании. Специалисты всего за полгода оборудовали помещение российской биржи «под ключ», снабдив заказчика полным комплексом инженерных решений.

Во-вторых, требования к комплексности оборудования для разных участков ЦОДа отличаются. Особенно комплексность важна для серверных систем и систем хранения, поскольку не каждая такая система, собранная из разных компонентов, в принципе будет работать. С инженерными решениями проще – скажем, у кондиционеров нет большой зависимости от систем бесперебойного питания.

Наконец, следует помнить, что комплексность дает лучшие результаты там, где у заказчика есть единая точка ответственности за совместимость оборудования. Когда подбором систем занимаются разные команды, каждая из которых преследует свои цели, решить вопросы совместимости продуктов становится сложнее.

Стоимость сопоставимых решений уравнивается

Сопоставимые по функционалу и качеству отечественные и импортируемые из дружественных стран продукты сравнялись по стоимости. Конечно, если клиент закупает оборудование напрямую в Юго-Восточной Азии, оно будет априори дешевле. Но в его итоговую стоимость войдет логистика, прохождение таможенных процедур, обеспечение пусконаладочных работ, сервисной поддержки, гарантийного и постгарантийного обслуживания.

Сейчас на российском рынке в основном представлено два типа производителей. Первые являются отечественными компаниями, которые локализуются в России. Вторые — зарубежные поставщики, которые стремятся зайти на наш рынок, открывают здесь представительства и предоставляют сервис. Но цена продуктов этих вендоров в процессе локализации растет и уравнивается по рынку.

Искусственный интеллект требует роста мощностей

В связи с большими потребностями в искусственном интеллекте очевиден еще один тренд. Нагрузка на ЦОДы от использования ИИ резко возрастает. Если раньше стандартом считался дата-центр со стойками на 5 кВт, то сейчас и 10 кВт на стойку – не предел. Для реализации проектов с применением ИИ уже сейчас нужны стойки и инженерная инфраструктура на 30-50 кВт, и вопрос о том, каким именно способом эту потребность закрыть, актуален.

Оптимальное технологическое решение должно быть гибким и конвергентным, оно должно позволять реализовывать в той или иной комбинации как маломощные продукты на 5 кВт, так и высоконагруженные стойки. К тому же наличие в ЦОДе таких стоек требует решить непростую задачу с их охлаждением.

Уже в ближайшем будущем рост применения технологий ИИ в ЦОДах приведет к необходимости увеличивать их энергоснабжение, и надо будет найти способ сделать это экологично.

Влияние новых санкций невелико

В конце февраля Минфин США ввел блокирующие санкции против крупных российских дата-центров. До сих пор нет полного понимания, по каким критериям одни ЦОДы подверглись санкциям, а другие нет, даже если они работают с государством. Зато за эти два месяца стало очевидно, что какого-либо серьезного влияния очередные санкции на российские дата-центры оказать не смогли.

Одна из причин — российский рынок коммерческих центров обработки данных сейчас сосредоточен на клиентах из России и ближнего зарубежья, для которых эти санкции не являются ограничительным фактором. Даже если кто-то из крупных азиатских игроков, выходя на российский рынок, не рискнет разместить мощности в ЦОДах из санкционного списка, эти случаи будут единичны и не приведут к отрицательной динамике.

Несмотря на санкции и другие сложности, о которых сказано выше, можно прогнозировать, что темпы роста рынка отечественных центров обработки данных в 2024 году сохранятся.

Автор — Леонид Юль, директор по развитию компетенций ЦОД C3 Solutions

Uptime Institute: Перебои в работе цифровой инфраструктуры обходятся все дороже

ИТ-инфраструктура

Uptime Institute: Перебои в работе цифровой инфраструктуры обходятся все дороже

09:43 30.06.2022

В последнее время основными причинами сбоев в работе инфраструктуры ЦОДов являются отключения электроэнергии и человеческий фактор. Читать...

Согласно отчету Uptime Institute, в последние годы перебои в работе цифровой инфраструктуры обходятся все дороже и дороже. При этом общее количество крупных отключений осталось прежним, а следовательно, суммы, затрачиваемые в среднем на восстановление работоспособности после сбоя, растут.

Доля отдельных отключений, приводящих к убыткам на сумму свыше 100 тыс. долл., в 2021 году увеличилась до 47% по сравнению с 40%, о которых шла речь годом ранее. Хотя среднюю стоимость одного отключения в Uptime Institute не рассчитывают, общие тенденции указывают на то, что затраты на преодоление последствий такого отключения продолжают расти.

Каждое пятое предприятие сообщило по крайней мере об одном «серьезном» сбое за последние три года. Речь идет об отключениях, которые привели к существенным финансовым потерям, телесным повреждениям, репутационному ущербу или нарушениям требований законодательства. 80% участников опроса сообщили о возникновении у них сбоев в последние три года (без конкретизации уровня их серьезности), что находится на верхней границе нормы.

В отчете отмечается, что наибольшая доля отключений в целом была вызвана проблемами, которые связаны с сетью и могут быть результатом крупномасштабного перехода на облачные технологии, технологии программно-конфигурируемых сетей (software defined networking, SDN) и другие новые сетевые архитектуры.

Но наиболее ощутимые неприятности, как правило, связаны со сбоями в электроснабжении. На них приходится 43% «серьезных» отключений за последние три года.

Согласно отчету, наибольшее количество перебоев в обслуживании в рассматриваемый период наблюдалось у независимых поставщиков услуг. На долю облачных провайдеров, поставщиков услуг хостинга, связи и телекоммуникационных компаний приходится почти две трети всех отключений общедоступных сервисов, которые Uptime Institute отслеживал на протяжении последних семи лет. К 2021 году эти показатели увеличились на 70%.

Многие сбои, независимо от того, на какую часть инфраструктуры они повлияли, стали результатом человеческой ошибки. В последние три года почти 40% предприятий столкнулись с серьезными перебоями в работе, вызванными человеческим фактором. В большинстве случаев они были связаны с неоптимальностью процессов и процедур или их несоблюдением.

По словам основателя и исполнительного директора Uptime Institute Энди Лоуренса, виновата в высоком уровне сбоев (как прямо, так и косвенно) все более сложная архитектура современных ИТ.

«Отсутствие заметных улучшений в общем уровне сбоев в определенной степени является результатом огромных недавних инвестиций в цифровую инфраструктуру и всех сложностей, с которыми сталкиваются операторы при переходе на гибридные распределенные архитектуры, – подчеркнул Лоуренс. – Со временем как технологии, так и операционные процессы будут улучшаться, но пока перебои в работе остаются главной проблемой для клиентов, инвесторов и регуляторов».

Отчет Uptime Institute опирается на несколько видов источников — от публичных отчетов о крупных сбоях и результатов специальных опросов до баз данных об аномальных инцидентах, которые ведет компания.

ИТ-инфраструктура

Не гори оно огнем

12:55 16.03.2021 | Павел Колмычек |

10 марта в Страсбурге произошел пожар в дата-центре OVH, одном из крупнейших европейских хостинг-провайдеров, чьими клиентами являются банки, государственные структуры, ретейлеры. Заметное событие, но, к сожалению, не единичное в истории российского и иностранного рынка ЦОД. Почему происходят такие инциденты и как могут финансовые компании защититься от их последствий? Читать...

Сбои в работе дата-центров происходят в последнее время регулярно, но далеко не все из них попадают в поле зрения общественности. Чаще всего их замечают, если провайдеры не могут устранить последствия длительное время (более одного дня), либо если проблема касается очень большого количества пользователей. Так недавно было с Twitter, а также Facebook, Instagram и WhatsApp. Для этих сервисов недоступность даже в двадцать минут чревата народным негодованием.

Однако пожары все же стоят особняком от прочих инцидентов, вызывающих простой информационных систем. Дело в том, что они случаются достаточно редко, но при этом не остаются незамеченным. Сложно игнорировать, когда полыхает крыша (или здание целиком, как в случае в OVH), прямо на глазах у публики.

В России подобные возгорания тоже случались. Во всех случаях они были связаны с достаточно тяжелыми последствиями для провайдеров: продолжительной неработоспособностью объекта, порчей дорогостоящего инженерного и вычислительного оборудования, потерей репутации и оттоком клиентов. При этом пожара в большинстве случае можно было избежать, выполняя ряд нехитрых требований к безопасности.

Если анализировать российскую практику, то только 20% возгораний в ЦОД связаны с неисправностью его оборудования. 80% приходится на так называемый человеческий фактор: некорректно выстроенные процессы эксплуатации, несоблюдение техники безопасности и т. д. Например, причиной пожара может стать загоревшаяся куча тополиного пуха на крыше дата-центра, как в одном из российских кейсов, или коробки от оборудования, оставленные в тамбуре или помещениях ЦОД, прилегающих к серверной.

Сложно представить, что такой востребованный среди клиентов объект, как дата-центр в Страсбурге, был построен с нарушением норм противопожарной безопасности. Подобные площадки проектируются и возводятся в строгом соответствии со стандартами Uptime Institute. Из этого можно сделать вывод, что скорее всего проблема кроется именно в неправильной эксплуатации.

Между тем, принципы обслуживания ЦОД также зафиксированы в стандартах Uptime Institute. В комплексе они позволяют свести практически к минимуму количество возможных инцидентов в дата-центре. Например, в них прописаны регламенты доступа в здание, проведения регламентных работ и т. д. Следуя им, можно обеспечить постоянную доступность объекта на протяжении десятков лет.

Как компаниям застраховать себя от простоев и потери информации

Рекомендации здесь универсальные. Во-первых, стоит обращать внимание на наличие сертификатов Uptime Institute. Предпочтительнее будут те провайдеры, которые смогут предоставить полный комплект документов, включая актуальный сертификат на операционную устойчивость (Tier Certification of Operational Sustainability Uptime Institute). Именно он свидетельствует о грамотно выстроенных процессах эксплуатации.

Во-вторых, при выборе поставщика услуги рекомендуется лично посещать объект. Незазорно попросить провести экскурсию, в том числе на крышу здания, и оценить, как соблюдается порядок в помещениях, не относящихся напрямую к серверным.

Наконец, нельзя забывать про планы восстановления в случае аварий (DRP), регулярно обновлять их в соответствии с новыми рисками, выполнять тестовые переключения, или даже резервировать данные, используя технологии High Availability. Последнее позволит восстановиться на независимой площадке за короткое время, даже если на основной ЦОД упадет метеорит.

Автор — Павел Колмычек, операционный директор КРОК Облачные сервисы

Клиника «Медицина»: инфраструктура, ориентированная на пациента

ИТ-инфраструктура

Клиника «Медицина»: инфраструктура, ориентированная на пациента

12:17 10.06.2019 | Ирина Шеян |

В клинике целенаправленно изучают новые технологии и продукты, но берут их на вооружение только в тот момент, когда это становится экономически оправданным. Читать...

В АО «Медицина» (клиника академика Ройтберга) стремятся использовать весь арсенал информационных технологий для повышения клиентоориентированности бизнеса. Это стремление находит отражение и в инфраструктурных проектах. О самом последнем из них Максим Петухов, ИТ-директор АО «Медицина» (клиника академика Ройтберга), расскажет на форуме ИНФРАСТРУКТУРА 2019, которую издательство «Открытые системы» проведет 18 июня. А пока он ответил на несколько вопросов CIO.ru.

Несколько лет назад в клинике произошли глобальные изменения инфраструктуры, сопровождавшие расширение бизнеса. Редкая возможность узнать, как показали себя самые современные на тот момент технологии в долгосрочной перспективе.

- Клиника создавала инженерную и ИТ-инфраструктуру с запасом, но мир с каждым днем меняется все динамичнее. Хватает ли сегодня того «запаса», чтобы поддержать дальнейшее развитие бизнеса?

Бесконечный запас расширения создать невозможно, он ограничен средним временем жизни технологий. Если для софта можно все время поддерживать актуальную версию, то «железо» однозначно стареет.

Тот запас, который мы закладывали при проектировании инфраструктуры, по-прежнему играет свою роль. Мы спокойно увеличили там, где нужно было, количество компьютеров, которые подключаются к проводной сети. Возможности, которые были заложены в ЦОДе по размещению оборудования, нас устраивают.

Конечно, мы проводим ротацию серверного оборудования, периодически заменяя на новые те серверы, которые отработали пять-семь лет, получаем ускорение работы информационных систем и новые возможности. Но при этом базовая инфраструктура остается актуальной и, наверное, еще долго такой останется. Нам предстоит замена оборудования, например, кондиционеров, периодически меняем аккумуляторы ИБП, срок жизни которых составляет три-пять лет в зависимости технологии. Все это происходит в штатном режиме.

И мы очень внимательно следим за сервисным обслуживанием оборудования ЦОДа, которым занимается внешний подрядчик. Возникающие небольшие проблемы устраняются как можно быстрее, это и служит залогом долгого срока службы.

Года через три потребует замены система охлаждения. Тут мы рассчитываем на новый ЦОД в нашем онкологическом центре, который сейчас строится в Химках. Он будет аналогичен по возможностям нынешнему ЦОДу, и мы получим географически распределенную, отказоустойчивую и даже катастрофоустойчивую инфраструктуру. Все информационные системы, которые сейчас работают на оборудовании действующего ЦОДа, смогут мигрировать и продолжить работу там. Эта мера позволит установить новое оборудование, провести модернизацию системы охлаждения, замену стоек. Инфраструктурные возможности нового онкологического центра будут служить всей клинике в целом. При его проектировании мы закладываем возможности расширения и плавной замены ИТ-оборудования.

- Как часто бизнес ставит перед ИТ-службой клиники задачи, требующие модернизации инфраструктуры?

Поскольку при проектировании мы ориентируемся на пяти-семилетнюю перспективу, с учетом параметров роста самого бизнеса, его потребностей в ИТ, это происходит достаточно редко. Именно поэтому текущая инфраструктура так долго служит.

Только предусмотрительность, проявленная при проектировании, позволяет пользоваться плодами инфраструктурных проектов на протяжении длительного времени.

- Какими подходами вы руководствуетесь в управлении инфраструктурой? Много ли внимания вы ей уделяете?

Инфраструктура требует много внимания, так как это краеугольный камень, на который опирается вся работа клиники. Но при этом у нас очень ограниченный ресурс сотрудников, которые могут обслуживать, контролировать инфраструктуру, устранять возникшие проблемы и принимать корректные решения о привлечении внештатных специалистов. Поэтому очень важен мониторинг, который мы непрерывно совершенствуем.

Мы используем две системы мониторинга. Первая, приобретенная вместе с сетевым оборудованием Hewlett-Packard, служит для его мониторинга, контроля изменений конфигураций. Вторая, Zabbix, более универсальна и позволяет отслеживать параметры всего оборудования и информационных систем. Недели не проходит, чтобы мы не ввели в нее какой-то новый параметр или сценарий работы оповещений. Это та система, которую мы все время наращиваем.

Также крайне важна автоматизация рутинных задач. У системного администратора очень высокая квалификация, но, если для выполнения каждого действия надо будет заново писать какой-то скрипт, никакого ресурса не хватит. Поэтому мы внедряем средства автоматизации работы ИТ-сотрудников, все время их совершенствуем и наращиваем. В результате два человека обслуживают всю сетевую и серверную инфраструктуру и ЦОД, включая обеспечение круглосуточной работы инженерной инфраструктуры здания.

- Какие технологические тенденции с вашей точки зрения важно учитывать при планировании развития инфраструктуры? Облачные технологии, гиперконвергентные, микросервисные архитектуры, что из них вы примете во внимание?

Мы отслеживаем все технологические тенденции, целенаправленно изучаем новые технологии и продукты, которые появляются на рынке. Все технологии, и облачные, и гиперконвергентные, безусловно, сыграют свою роль, каждая на своем уровне. Но для нас это произойдет ровно в тот момент, когда станет экономически оправданным. Если посчитать все затраты и все риски, связанные, скажем, с использованием облачных технологий, это не всегда выгодно, особенно когда уже есть сложившаяся практика, оборудование, обученный персонал, система поддержки и подготовки сотрудников.

Поэтому при внедрении новых систем и попытке сократить затраты на действующие мы исследуем и проводим расчеты для всех современных технологий. Облака — одна из них. Пока мы не увидели такого предложения, которое позволит сэкономить существенные средства: повторюсь, в клинике построена очень серьезная инфраструктура, многое сделано с запасом. Нам не интересно брать вычислительные мощности из облака, потому что выгоднее загрузить свои. Но мы присматриваемся ко всему, и одно из интересных перспективных направлений — возможность долговременного хранения зашифрованных резервных копий информационных систем, а также данных систем видеонаблюдения, которые занимают очень большой объем, и архивов медицинских исследований — КТ и ПЭТ/КТ. То есть тех данных, которые можно спокойно перенести «на холод», так как даже ленточные накопители требуют определенных параметров хранения: влажности, температурного режима.

- Что вы расскажете участникам конференции «Инфраструктура» и что вам самому будет интересно?

Сосредоточусь на проекте обновления сети Wi-Fi. Интересно, что немаловажную роль в принятии решения об этих инвестициях сыграли пациенты, высказав свое мнение, которое утвердило нас в необходимости этого проекта. Это важно для ИТ-директоров и для владельцев бизнеса.

Мне на конференции будет интересно подтвердить свой опыт и расширить свои знания. А также увидеть, как другие компании применяют технологии, к которым мы относимся осторожно из-за крайне серьезного подхода к защите персональных данных. Посмотреть на удачный опыт коллег по переносу в облако сервисов с учетом всех аспектов защиты персональных данных и удобства доступа внешних и внутренних заказчиков, по модернизации ЦОДа c использованием гиперконвергентной архитектуры. Это очень полезно, чтобы мы могли учиться не только на своих ошибках.

ЦОД от LinkedIn: водное охлаждение и чистая энергия

Интервью

ЦОД от LinkedIn: водное охлаждение и чистая энергия

14:58 22.06.2017 | Джон Дикс |

В основе инфраструктуры ЦОДа компании лежат очень интересные инновационные идеи. Читать...

Для поддержки полумиллиарда пользователей LinkedIn по всему миру требуются немалые вычислительные мощности, особенно если учесть, что каждому из них нужны персональные настройки с выдачей веб-страницы, на которой присутствуют только его контакты. Сегодня социальную сеть обслуживают свыше 100 тыс. серверов, распределенных между несколькими ЦОДами. Чтобы поближе познакомиться с тем, как LinkedIn справляется со всем этим, главный редактор журнала Network World Джон Дикс побеседовал с вице-президентом LinkedIn по производственным операциям и ИТ Сону Навьяром и старшим директором компании по проектированию инфраструктуры Саидом Али Каном.

Давайте начнем с общей картины того, что имеется в ваших ЦОДах, развернутых в разных странах.

Навьяр: Сайт LinkedIn.com в глобальном масштабе обслуживается тремя ЦОДами, которые расположены в США: в Ричардсоне (штат Техас), в Эшберне (Вирджиния) и в только что открытом ЦОДе в штате Орегон. Еще у нас есть небольшой ЦОД в Сингапуре, запущенный в эксплуатацию в начале нынешнего года. Главное его предназначение – улучшение обслуживания наших пользователей в Юго-Восточной Азии. Все четыре ЦОДа подключены к магистрали MPLS и к 13 глобальным точкам присутствия.

По данным на апрель 2017 года, в социальной сети LinkedIn, принадлежащей сейчас корпорации Microsoft, зарегистрировалось уже свыше 500 млн пользователей.

LinkedIn отказалась исполнить требование Роскомнадзора о локализации баз с персональными данными российских граждан на территории России и поэтому остается заблокированной на территории РФ. Всего в LinkedIn было зарегистрировано 5 млн аккаунтов на территории России. Социальная сеть по-прежнему доступна на русском языке.

Однако соцсеть рассчитывает вернуться в Россию – она уже зарегистрировалась в системе Федеральной налоговой службы. И вполне возможно, что для выполнения требований российского законодательства в РФ появится ЦОД нового типа от LinkedIn.

Они построены на базе единой архитектуры или же их архитектура различается, в силу того что все они создавались в разное время?

Сону Навьяр, вице-президент LinkedIn по производственным операциям и ИТ

Навьяр: Архитектура их носит смешанный характер. Прежде чем приступить к строительству своего первого ЦОДа в Эшберне, мы использовали услуги колокации. В дальнейшем технология год от года совершенствовалась, и ЦОД в Орегоне функционирует уже совсем по-другому.

Кан: Переход к оптовой модели начался с самого первого ЦОДа в Вирджинии. Вместо того чтобы обращаться к розничным поставщикам вычислительных мощностей наподобие Equinix, мы просто арендовали для ЦОДа пространство – большое пустое сооружение – и начали оборудовать его внутри самостоятельно, размещая там средства энергоснабжения, кабели, стойки и все прочее. Затем еще один ЦОД был построен в Техасе – развитие шло очень быстрыми темпами. Когда подошел черед строительства в Орегоне, мы проанализировали накопленный опыт и задумались, как будут выглядеть наши ЦОДы в будущем. Именно тогда и произошел переход к модели гипермасштабирования. Двигаясь дальше, мы намерены модифицировать все прочие ЦОДы в соответствии с новой моделью.

Значит, вы не собираетесь, подобно некоторым веб-гигантам, создавать свои собственные серверы?

Кан: Нет. Мы используем отдельные серверы, монтируемые в стойке. И поддерживаем тесные отношения с теми поставщиками OEM-оборудования, которые предлагают продукты, отвечающие нашим требованиям к производительности и т. д. Наша компания была одним из первых крупных пользователей систем Cisco UCS, но в последнее время мы больше склоняемся к стандартному оборудованию Supermicro.

А ваши собственные бизнес-потребности удовлетворяются тоже в этих ЦОДах?

Навьяр: У нас практикуется гибридный подход. Для хранения корпоративных ресурсов – службы персонала, финансовой службы, отделов разработки, предпродажной обработки и пр. – есть небольшой ЦОД в Санта-Кларе. Но после завершения строительства в Орегоне мы стали использовать зоны безопасности, позволяющие обслуживать корпоративные нужды в любом из имеющихся ЦОДов.

Как выглядит клиентское приложение LinkedIn?

Навьяр: Наше приложение имеет сложную структуру, и в формировании страницы пользователя при его подключении к LinkedIn.com принимают участие все ресурсы ЦОДа. Понятно, что контакты и связи у всех уникальны, поэтому страница настраивается в соответствии с индивидуальными особенностями, и в наших ЦОДах циркулируют большие объемы внутреннего трафика, генерирующего каждую из страниц. Для этого требуется много вычислений. На каждый байт, поступающий в нашу сеть, приходится в сотни раз больше байтов внутреннего трафика.

Это впечатляет...

Навьяр: В нашем приложении все взаимосвязано. Естественно, некоторые части сайта разделены. Например, модуль Recruiter имеет другой интерфейс. Но для типичного потребителя в LinkedIn.com все взаимосвязано.

Кан: У нас множество продуктов и тысячи сервисов. Когда эти компоненты взаимодействуют друг с другом, между ЦОДами циркулируют очень большие объемы данных.

Каждый из ваших ЦОДов поддерживает одни и те же функции или же задачи распределены между ними?

Навьяр: Трафик может обслуживаться в любом месте. Если в каком-то ЦОДе происходит сбой, мы просто перенаправляем трафик на другую площадку. Между всеми ЦОДами осуществляется в реальном времени репликация по магистрали MPLS с пропускной способностью 100 Гбит/с. ЦОДы обслуживают одинаковые запросы – таким образом повышается уровень готовности. Если один из сайтов отключается (из-за ошибки в программе, сетевых проблем, сбоев питания и даже неправильно внесенных изменений), мы можем легко восстановить работоспособность в течение пяти минут. Все компоненты взаимодействуют друг с другом, обслуживая LinkedIn.com.

Пользователи обслуживаются по географическим регионам?

Саид Али Кан, старший директор LinkedIn по проектированию инфраструктуры

Кан: Да. Мы активно используем возможности Anycast, переходя к нужному IP-адресу кратчайшим путем. Таким образом наши пользователи соединяются с ближайшей точкой присутствия.

Навьяр: Мы пытаемся понять, как осуществлять маршрутизацию запросов из той или иной части страны, и переадресовываем их на ближайшую точку присутствия. Наши точки присутствия представляют собой небольшие ЦОДы, где размещено главным образом сетевое оборудование и прокси-серверы, выступающие в роли оконечных узлов для запросов с подключением по протоколу TCP.

Кан: Положение точки присутствия выбирается с учетом пользовательского контекста. Мы знаем, из каких географических областей приходят запросы. Для упреждающего анализа мы используем модель, в которой применяем науку о данных. Она показывает, к примеру, что при выборе точки присутствия в Австралии время загрузки страницы сокращается на такой-то процент. С учетом полученной информации мы строим точку присутствия в указанной области и связываем ее с нашими ЦОДами. Запросы на загрузку страниц сначала обрабатываются в точке присутствия, а затем уже пересылаются в основные ЦОДы. Наличие точек присутствия помогает загружать страницы быстрее. А размещение точки присутствия в Азии помогло нам улучшить загрузку страниц на 25%.

Навьяр: Мы постоянно отслеживаем производительность сайта по всему миру и предпринимаем все необходимые меры для улучшения его функционирования. Это осуществляется путем оптимизации сети, улучшения приложения, внесения изменений в алгоритм формирования страниц, рационализации ЦОДов, уменьшения времени, требуемого для построения страниц. И все это в конечном итоге отражается на качестве обслуживания наших пользователей.

Что ж, давайте вернемся к вашему новейшему ЦОДу в Орегоне, который был недавно запущен в эксплуатацию. Чем он отличается от других?

Кан: Плотность размещения вычислительных мощностей здесь заметно выросла. Как правило, одна стойка потребляет 7-9 кВт. Но из-за ограниченного пространства нам пришлось размещать в каждой стойке гораздо больше серверов. В результате уровень энергопотребления стал превышать 14 кВт на стойку. При повышении плотности размещения оборудования растет и тепловыделение, поэтому понадобилось заново проектировать всю систему охлаждения ЦОДа. Отвод тепла теперь осуществляется через заднюю дверь. Одними из первых мы стали применять жидкостное охлаждение стойки. Конечно, на это нужны дополнительные капиталовложения, но со временем они окупаются вследствие сокращения энергопотребления.

Так вы прокачиваете через стойки воду?

Навьяр: Сначала вода охлаждается снаружи, а затем подается в теплообменник, смонтированный в задней двери. Таким образом, горячий воздух нейтрализуется прямо в стойке и у нас нет необходимости прибегать к чередованию горячих и холодных коридоров между рядами.

ЦОД от LinkedIn: водное охлаждение и чистая энергия

Горячий воздух нейтрализуется прямо в стойке, и нет необходимости прибегать к чередованию горячих и холодных коридоров между рядами

Насколько надежна прокачка воды между всеми этими системами? Вас этот вопрос беспокоит?

Навьяр: При рассмотрении новой для нас технологии соответствующие вопросы вызывали беспокойство, но мы тщательно протестировали ее, и конструкция показала себя достаточно надежной. Кроме того, мы осуществляем постоянный мониторинг, и в случае появления утечек мы бы о них знали. Но пока никаких поводов для беспокойства не возникает.

Охлаждение воды с помощью внешнего воздуха должно быть достаточно эффективным. Какова эффективность энергопотребления (Power Usage Effectiveness, PUE) у ЦОДа в Орегоне?

Навьяр: Коэффициент PUE равен 1,06. И это стоит того, если учесть, что в перспективе наша цель заключается в полном переходе на экологически чистые источники энергии. Правда, пока цель эта не достигнута, но мы стремимся к ней и во многом поэтому выбрали в Орегоне технопарк Infomart, поскольку у них есть непосредственный доступ к возобновляемым источникам энергии. (Одним из преимуществ площадки, которая была выбрана для размещения нового ЦОДа, является то, что это место позволяет использовать технологию охлаждения серверов наружным воздухом большую часть года, тем самым снижая общее потребление электроэнергии.)

Одним из преимуществ площадки, которая была выбрана для размещения нового ЦОДа, является то, что это место позволяет использовать технологию охлаждения серверов наружным воздухом большую часть года, тем самым снижая общее потребление электроэнергии

Давайте перейдем к вашим инновационным сетевым технологиям, которые были озвучены в проектной документации Project Altair. Насколько я понимаю, в верхней части каждой из ваших стоек смонтирован коммутатор, к которому подключаются все прочие устройства.

Кан: Да. Проект Altair – это одно большое коммутационное решение. Его можно представить в виде большой одноуровневой сети. Здесь нет ядра, нет шасси. Представьте, что вы объединяете более 100 тыс. серверов с использованием традиционной корпоративной модели. Пакет, проходящий от одного сервера до другого, преодолевает 25-30 чипсетов и достигает цели с задержкой, измеряемой в миллисекундах. Мы сократили число промежуточных чипсетов до пяти, используя пятиярусную архитектуру Клоза Leaf-Spine, и это позволило уменьшить задержки при коммутации двух серверов до нескольких микросекунд (см. рис. 1).

ЦОД от LinkedIn: водное охлаждение и чистая энергия

В топологии Leaf-Spine все разбивается на несколько ярусов. У каждого коммутатора, смонтированного сверху стойки, есть четыре маршрута к Spine-коммутаторам, а они, в свою очередь, связываются несколькими путями с коммутаторами, расположенными над ними. Таким образом, все Spine-коммутаторы образуют одну большую коммутирующую структуру. У каждого из коммутаторов, находящихся сверху стойки, имеется четыре и более равноудаленных маршрутов ECMP (equal-cost multi-path) (см. рис. 2).

В качестве коммутаторов в верхней части стойки и Spine-коммутаторов используются одинаковые устройства?

Кан: Да, они абсолютно одинаковы. Мы перешли на единую модель учетных единиц и покупаем коммутаторы только одного типа высотой 1U.

Вы получаете все коммутаторы от одного поставщика?

Кан: Нет. Речь идет об одной платформе. Все они имеют одинаковую архитектуру и одинаковый чипсет. Одна учетная единица. У вас может быть множество поставщиков, но при этом одна платформа. Мы используем чипсет Tomahawk и 32 порта 100 Gigabit с общей пропускной способностью 3,2 Тбит/с. Канал шириной 50 Гбит/с подключается к серверам, которые могут отличаться друг от друга. Мы стали первыми, кто подает на каждый сервер поток в 10, 25 или 50, а в перспективе даже в 100 Гбит/с. И этого должно быть вполне достаточно на ближайшие четыре года, а может быть, и больше.

Все Spine-коммутаторы являются неблокируемыми, а значит, при наличии входящего 100-гигабитного канала вы всегда получаете точно такой же исходящий канал. От коммутатора вниз спускаются 50-гигабитные каналы, соответствующие стандарту PSM4. Благодаря такому решению можно взять два 100-гигабитных порта и разделить их на четыре 50-гигабитных, обеспечив эффективную пропускную способность шкафа в 200 Гбит/с.

В вашей документации я читал, что коммутаторы сверху стойки не имеют резервирования. Следовательно, вы позволяете себе потерять целый шкаф. Такое стало возможным благодаря репликации серверов?

Кан: Да, и серверов, и ЦОДов. Речь идет о распределении отказавших зон и упрощении инфраструктуры. При таких масштабах приходится думать о совместном использовании пространства. Приложения достаточно устойчивы к сбоям, так что мы вполне можем потерять целый шкаф, и все будет работать в рамках одного или нескольких ЦОДов.

Правильно ли я понимаю, что на коммутаторах, смонтированных в верхней части стоек, выполняется ваш собственный программный код?

Кан: На некоторых из них. Мы используем как OEM-решения (Original Equipment Manufacturer – оборудование, продаваемое компанией под своим именем и брендом, но сделанное другими предприятиями), так и оборудование собственной разработки (ODM, Original Design Manufacturer). К OEM относятся поставщики наподобие Cisco. А на оборудовании ODM выполняется наш собственный код, и мы постепенно внедряем новые мощности, монтируя новые шкафы и развертывая новые наборы баз данных.

А почему вы разрабатываете свой собственный программный код?

Кан: Есть много специфичных моментов, которыми мы желаем управлять. Нам хотелось бы сосредоточиться на управлении нашими коммутирующими структурами. Мы не ставим перед собою цель непременно разработать лучшую в мире сетевую операционную систему. Задача заключается в создании поверх аппаратного уровня приложений, которые управляли бы нашей системой коммутации.

Желательно, например, получать телеметрическую информацию с коммутатора и загружать ее на платформу машинного обучения, а полученные результаты использовать для интеллектуальной маршрутизации трафика, выявления причин снижения производительности и улучшения управления сетью. Такова наша цель. Внутри компании мы называем эту инициативу программируемым ЦОДом. Нам хочется больше узнать о сетевом уровне приложений и оптимизировать трафик внутри ЦОДа с учетом его особенностей.

Понятно. И вы поддерживаете IPv4 и v6, стремясь к повсеместному переходу на v6?

Кан: Да, на фронте v6 мы выступаем весьма активно. Несколько лет назад решено было запустить версию сайта www.linkedin.com на IPv6, с тем чтобы продолжать работу и после того, как неизбежно будут исчерпаны адреса IPv4. Мы начали с периферии и стремимся охватить рынки, оперирующие исключительно трафиком IPv6. Существенный рост использования IPv6 наблюдался в мобильном трафике. Кроме того, нам удалось добиться определенного увеличения производительности. По мере роста масштабов протокол IPv6 стал использоваться и внутри ЦОДов. В настоящее время стек v4 и v6 дублируется, но через пару лет мы планируем полностью перейти на v6.

Какова общая мощность ваших ЦОДов и как вы намерены развиваться дальше?

Навьяр: С учетом нашего корпоративного ЦОДа сегодня мы близки к 40 МВт. В следующем году постараемся еще увеличить мощности. По крайней мере, это уже запланировано. Как все будет развиваться с точки зрения интеграции с Microsoft, пока неизвестно. Сейчас в ближайших планах органичный рост, но нам, по-видимому, придется немного подождать и посмотреть, как пойдут дела дальше.

Ваша компания известна как крупный представитель сообщества open source. Какова ваша политика в этой области и в чем вы видите смысл участия в продвижении открытых платформ?

Навьяр: Хотелось бы прояснить один момент. Наша философия предусматривает определенную отдачу и открытие исходного кода проектов, над которыми мы работали, везде, где это имеет смысл. Саид уже упоминал о коммутационной телеметрии, которая выливается в очень быстрые, масштабируемые и реплицируемые потоковые приложения – настоящий конвейер сообщений. Мы открыли исходный код этого проекта, и обусловлено это сразу несколькими причинами.

От открытия нами исходного кода выигрывают другие люди, но мы убеждены в том, что это выгодно и для нашего собственного бизнеса. Во-первых, в проекты вовлекается масса новых специалистов, что приводит к улучшению получаемых результатов. А во-вторых, повышается качество работы наших инженеров. Понимая, что их программы изучают миллионы людей, они начинают ответственнее относиться к оформлению документации и выдают более элегантный код, ведь под ним ставится их подпись.

Сегодня много говорят о нашей открытой аппаратной инициативе Open19, и в следующем году здесь произойдут новые важные события. Мы решили разработать открытый стандарт 19-дюймовых стоек для серверов, систем хранения и сетевого оборудования. Цель заключается в том, чтобы вдвое сократить число общих компонентов. Все, что находится в стойке, потребляет электроэнергию и обращается к сетевым ресурсам, поэтому мы решили консолидировать все имеющиеся здесь общие компоненты.

Помимо существенной экономии капитальных затрат, Open19 поможет интегрировать стойки в два-три раза быстрее. Если у вас имеются совместно используемые блоки питания и сетевые компоненты, прокладывать громоздкие кабели уже не потребуется. Мы поддерживаем отношения со многими поставщиками OEM и ODM. Для них это выгодно, поскольку, перейдя на новый стандарт и сохраняя при этом свою интеллектуальную собственность, они придают своей перспективной базе гораздо более высокую гибкость.

Создан новый консорциум, и LinkedIn является одним из его лидеров. Формируется стратегическое партнерство. В ближайшее время комитет начнет совместную работу, а мы со своей стороны откроем архитектуру и станем продвигать предложенную инициативу.

– John Dix. Network World. LinkedIn pumps water down to its server racks, uses an interesting spine and leaf network fabric January 24, 2017

Предприятие

Что такое хорошо для коммерческого ЦОД

16:35 13.01.2016 | Алекс Раббетц |

Как и следовало ожидать, клиенты центров обработки данных постепенно начинают приходить к выводу, что выбор ЦОД должен определяться не только его мощью и качеством охлаждения. Читать...

Вычислительные мощности есть у всех дата-центров, и во всех в той или иной мере присутствует охлаждение. Конечно, доступные вычислительные мощности могут отличаться, но большинство ЦОД вполне способно удовлетворить потребности большей части клиентов. На недавней конференции Finance and Investment Forum, прошедшей в Лондоне, от клиентов и инвесторов исходил четкий посыл: «Нас не заботят ваши пустые заявления. Нам интересны лишь безопасность ЦОД и получаемый уровень обслуживания».

Между тем большинство владельцев ЦОД, похоже, больше беспокоит то, что они думают о себе сами. (Возможно, мы просто преувеличиваем степень их зрелости?) «Мой ЦОД отвечает стандарту Tier 3, а мой – Tier 3*, у моего показатель PUE, характеризующий эффективность энергопотребления, составляет 1,2, а у меня – 1,1» – слышим мы то и дело.

Но: a) на самом деле это не так; б) такие уровни по большей части недостижимы; в) практически всегда это не более чем похвальба; г) клиентов все это совершенно не интересует.

Клиенты справедливо ждут, что ЦОД будет находиться в состоянии постоянной готовности.
Источник: Leonardo Rizzi — CC BY-SA 3.0

Громкие заявления довольно редко действительно имеют под собой основания. Да, клиентам важно, чтобы ЦОД был доступен тогда, когда им это понадобится. Возможно, клиентов интересует даже эффективность ЦОД, хотя для многих плата не зависит от величины PUE, поэтому и экономия проходит мимо них.

Клиенты справедливо ждут, что ЦОД будет находиться в состоянии постоянной готовности. Они рассчитывают также, что мощности его обладают достаточным уровнем резервирования, и, если один элемент выйдет из строя, его тут же заменит другой без какого-либо прерывания обслуживания. Клиенты надеются, что ЦОД работает максимально эффективно. В конце концов, на протяжении многих лет нам постоянно твердят об этом. Редко когда можно встретить владельца коммерческого ЦОД, который не упомянул бы о «Tier 3» (очень часто это является саморекламой) или не утверждал, что у него показатель PUE меньше, чем у кого бы то ни было (еще одно голословное заявление). А вот о чем многие предпочитают не упоминать, так это о безопасности и реальном качестве обслуживания, ведь это отнюдь не является их сильной стороной.

Клиентов же безопасность и качество обслуживания интересуют в гораздо большей степени, нежели какие-то совершенно абстрактные для них Tier и PUE. На практике их совершенно не заботит, каким должен быть показатель PUE и почему. Клиенты хотят знать, будут ли их программы и данные в безопасности. И на какой уровень обслуживания они могут рассчитывать. И если среди ночи они позвонят в службу поддержки, потому что связь с их сервером, похоже, оборвалась, какой будет реакция. И каким приоритетом будут обладать их сервисы в случае аварии или сбоя в ЦОД.

Почти каждую неделю мы слышим очередную историю о брешах в системе ИТ-безопасности.

Какой-то подгулявший парламентарий забыл свой ноутбук в поезде, очередной идиот в правительстве отправил по почте диск со сведениями о номерах карточек страхования граждан, и диск этот потерялся по дороге, хакеры увели у провайдера облачных сервисов пароли нескольких тысяч пользователей, охранники ЦОД были уволены после того, как злоумышленники похитили маршрутизаторы ядра сети. Клиенты должны ощущать себя в безопасности, зная, что процессы обладают достаточной устойчивостью для того, чтобы закрыть любую брешь. Просто удивительно, как много ЦОД пренебрегают этими элементарными правилами.

Встречаются ЦОД, проникать в которые можно часами, даже если вашего появления там ждут. Полчаса уйдет на то, чтобы пройти через входную дверь, если же вы хотите попасть внутрь, проще подойти сзади и воспользоваться грузовым дебаркадером. Здесь нет никого, и вы легко сможете пройти в любое место здания. Между тем все процессы должны быть надежны и эффективны с точки зрения защиты клиентских данных и оборудования, но просты и прозрачны в части получения авторизованного доступа. Большинство организаций превыше всего ценит безопасность своих данных, но многие ЦОД отделываются здесь лишь пустыми словами, предпочитая акцентировать внимание на том, какой у них Tier и насколько низким является показатель PUE: проверить это все равно невозможно и рассуждать об этом гораздо проще!

Позиция облачных провайдеров по вопросу надежности предоставляемых сервисов

Как показал опрос, проведенный в начале 2015 года Аналитической группой OSP Data, главным препятствием на пути использования облачных сервисов компании по-прежнему считают проблемы информационной безопасности. Опасения пользователей также вызывает надежность предлагаемых провайдерами сервисов. Между тем подавляющее большинство провайдеров предусматривают заключение соглашения SLA, чаще всего обязательное.

Источник: OSP Data, 2015

Качество же обслуживания по большей части оставляет желать лучшего. Во многих ЦОД полагают, что после подписания контракта клиент становится привязан к ним на долгие годы. И даже когда срок договора подойдет к концу, уйти в другое место окажется слишком сложно и дорого. Возможно, когда-то это было действительно так, но сегодня все изменилось. Многие провайдеры ЦОД поспешили запрыгнуть в «облачный» поезд, но лишь очень небольшая часть из них представляет себе, что на самом деле должно скрываться за «облачными сервисами». Они не понимают также, что пока необходимость предоставления хорошего сервиса не станет им очевидна, облако будет оставаться для них проклятием.

Может показаться, что облако открывает очень широкие возможности для маркетинговых изысков, но на самом деле клиентам всего лишь становится проще перемещаться между сервис-провайдерами. Использование облачной платформы позволяет клиентам переносить данные, а иногда и приложения из одного ЦОД в другой. Мы никогда не советовали бы использовать облако в качестве единственного места для хранения важных или конфиденциальных данных (вспомните о хакерах, которые уже успели похитить пароли у нескольких тысяч клиентов), но в качестве средства для миграции с одной платформы на другую облако подходит очень хорошо.

Прислушивайтесь к своим клиентам, они почти всегда интересуются действительно важными для них вопросами безопасности и качества обслуживания, а не оторванной от реальности рекламы.

Оптимальный вариант размещения ИТ-систем

На VI форуме «МИР ЦОД – 2015» аналитическая группа OSP Data провела блицопрос относительно оптимального варианта размещения ИТ-систем.

Традиционно большинство заказчиков в России предпочитают размещать ИТ-системы в собственных ЦОД. Немало специалистов высказалось в пользу гибридного варианта. Другие исследования OSP Data также показывают стремительный рост популярности этого варианта.

Источник: OSP Data, 2015