Понять, хорошо ли функционируют системы резервного копирования и восстановления данных, гораздо сложнее, чем просто узнать, сколько времени занимают соответствующие процедуры. А сделать вывод о том, успешно работает система или нуждается в перепроектировании, поможет набор основных метрик эффективности.
Перечислим пять метрик, которые нужно знать, чтобы гарантировать соответствие ИТ-систем потребностям бизнеса.
1. Емкость и ее утилизация
Давайте начнем с очень простой метрики. Обладает ли ваша система резервного копирования достаточной емкостью для того, чтобы удовлетворять текущим и будущим потребностям в резервном копировании и восстановлении данных? Независимо от того, идет ли речь о ленточной библиотеке или о массиве хранения, в любом случае система хранения обладает ограниченным запасом емкости, и вам необходимо отслеживать ее величину и текущий процент использования.
Неспособность контролировать все это может привести к тому, что вы будете вынуждены принимать решения, идущие вразрез с политикой вашей компании. К примеру, единственный способ создания дополнительных объемов хранения без закупки нового оборудования заключается в удалении старых резервных копий. И будет обидно, если неспособность отслеживать емкость хранения вашей системы приведет к невозможности выполнения требований по хранению, установленных компанией.
Облачное хранение во многих случаях помогает решить этот вопрос, поскольку некоторые сервисы предлагают фактически неограниченные объемы хранения.
2. Пропускная способность и ее использование
Любая система хранения имеет возможность ежедневно принимать определенный объем копируемых данных. Обычно этот показатель измеряется в мегабайтах в секунду или терабайтах в час. Вы должны его знать и отслеживать, какую полосу пропускания реально использует ваша система. Если этого не делать, процесс резервного копирования будет занимать все больше и больше времени, растягиваясь в течение рабочего дня.
Особенно важен контроль пропускной способности и ее использования для накопителей на магнитных лентах. Пропускная способность системы резервного копирования должна соответствовать пропускной способности ленточного накопителя. Поток данных, поступающих на ленточный накопитель должен быть больше минимальной скорости устройства. Изучите документацию на ленточный накопитель и информацию, представленную в системе технической поддержки поставщика, выясните, какова минимально приемлемая скорость и постарайтесь по возможности ее придерживаться. К максимальной скорости вы вряд ли приблизитесь, но нужно следить и за этим.
3. Вычислительная мощность и ее использование
Возможности вашей системы резервного копирования определяются в том числе и стоящей за ней вычислительной мощностью. Если вычислительных ресурсов серверов системы резервного копирования или базы данных недостаточно, процесс резервного копирования замедляется и захватывает рабочий день. Следует также отслеживать производительность системы резервного копирования и продолжительность создания резервных копий.
4. Окно резервного копирования
Предыдущие два параметра имеют очень важное значение, поскольку влияют на так называемое окно резервного копирования: период времени, в течение которого разрешено выполнять резервное копирование. Если вы используете традиционную систему резервного копирования, функционирование которой оказывает существенное влияние на производительность основных систем, предварительно нужно согласовать параметры окна резервного копирования. При приближении к полному заполнению окна необходимо заняться его пересмотром или перестройкой системы резервного копирования.
Компаниям, использующим технологии резервного копирования, которые относятся к категории инкрементных – непрерывную защиту данных (continuous data protection, CDP), почти непрерывную защиту (near-CDP), инкрементное резервное копирование на блочном уровне, резервное копирование с исключением дублирования и т.д. – как правило, не нужно беспокоиться об окне резервного копирования. Дело в том, что процедура резервного копирования запускается на очень короткий срок, и при этом передается относительно небольшой объем данных. Такие операции обычно не оказывают существенного воздействия на производительность основных систем. Вот почему клиенты, использующие системы такого рода, чаще всего выполняют резервное копирование днем – один раз в час или даже через каждые пять минут. Истинная система CDP действительно работает непрерывно, пересылая каждый новый байт практически сразу после того, как он был записан.
5. Точка восстановления и время восстановления: цель и реальность
На самом деле продолжительность резервного копирования мало кого волнует – интересует время восстановления. Целевая продолжительность восстановления (recovery time objective, RTO) – это согласованный всеми заинтересованными сторонами временной промежуток, в течение которого работоспособность должна быть восстановлена в случае возникновения такой необходимости. Для любой компании приемлемое значение RTO определяется той суммой денег, которую она теряет за время пребывания ее систем в неработоспособном состоянии. Если, к примеру, компания потеряет за час простоя миллионы долларов, уровень RTO для нее весьма критичен. У компаний, занимающихся выполнением финансовых операций, показатель RTO должен приближаться к нулю. У тех же организаций, на работе которых простой компьютеров практически не отражается, RTO может измеряться неделями. Важно лишь, чтобы значение RTO соответствовало потребностям бизнеса компании.
Использовать единый показатель RTO в масштабах всей компании тоже нет нужды. Разумно минимизировать RTO для наиболее критичных приложений и смягчать соответствующий показатель для остальной части ЦОД.
Целевая точка восстановления (recovery point objective, RPO) – это объем допустимых потерь данных, выраженный во времени. Например, если мы готовы потерять данные, накопленные в течение одного часа, то значение RPO составляет 1 час. Большинство компаний, впрочем, готовы к гораздо более значительным потерям – от 24 часов и больше. Чем меньше значение RPO, тем чаще вы должны запускать процедуру резервного копирования. Многие компании, вероятно, хотели бы уменьшить интервал RPO, но понимают, что при имеющейся системе резервного копирования это невозможно. Как и в случае с RTO, в компании может быть определено множество различных RPO в зависимости от важности имеющихся наборов данных.
Реальные параметры точки восстановления и времени восстановления (recovery point reality, RPR и recovery point reality, RTR) измеряются только по результатам выполнения процедуры восстановления – реального или тестового. Если RTO и RPO – это целевые параметры, то RPR и RTR позволяют оценить уровень соответствия целевым показателям после восстановления. Проведение соответствующих замеров и последующее сравнение их с RTO и RPO имеет важное значение для определения того, нужно ли вам вносить коррективы в свою систему резервного копирования и восстановления.
На практике у большинства компаний реальные показатели RTR и RPR далеки от заявленных RTO и RPO. И это нужно признать. Необходимо или менять значения RTO и RPO, приближая их к реальности, или перестраивать систему резервного копирования. Нет никакого смысла определять жесткие RTO и RPO, если RTR и RPR не имеют с ними ничего общего.
Что делать с метриками
Одним из способов повышения доверия к системе резервного копирования является документирование и публикация всех упомянутых здесь метрик. Пусть руководство знает, в какой степени ваша система резервного копирования соответствует тому, что было декларировано при ее внедрении. Пусть оценит – исходя из текущих темпов роста – как долго ее можно использовать без закупки дополнительных мощностей. А самое главное – предоставьте ему информацию о соотношении целевых и реальных показателей восстановления. Сокрытие этих фактов в случае возникновения простоя не принесет пользы никому.