Модель управления масштабированием системы хранения данных
Ключевые слова:
система хранения данных, носители, многоуровневое хранение данных, хранилище данных, масштабирование хранилища, управление хранилищем, прогнозирование требуемой емкости храненияАннотация
Постановка проблемы: хранение данных требует своевременного масштабирования инфраструктуры для размещения данных, поступающих на хранение. С учетом стремительного накопления данных необходимы новые модели управления емкостью хранилища, которые должны учитывать иерархическую структуру хранилища данных, разные требования к хранению файлов и ограничения на объем носителей. Цель исследования: предложить модель своевременного масштабирования инфраструктуры хранения данных, основанную на прогнозных оценках наступления того момента, когда заполнится емкость носителей данных. Результаты: разработана и приведена модель управления емкостью системы хранения данных, основанная на анализе паттернов состояния системы хранения. Паттерн представляет собой матрицу, каждая ячейка которой отражает состояние заполнения носителя системы хранения данных на соответствующем уровне иерархической структуры системы хранения. Ячейка матрицы характеризуется реальным, предельным и максимальным значениями емкости носителя. Задача масштабирования системы хранения данных заключается в прогнозной оценке наступления событий достижения предельной емкости и максимальной емкости носителя данных. Разница между прогнозными оценками есть время, которое выделено администратору для подключения дополнительных носителей. Предложено вычислять значения прогнозных оценок времени программным способом, применяя методы машинного обучения. Показано, что при построении краткосрочного прогноза методы машинного обучения проигрывают в точности ARIMA — интегрированной модели авторегрессии и скользящего среднего. Однако при построении долгосрочного прогноза методы машинного обучения дали результаты, соизмеримые с теми, что обеспечивает ARIMA. Практическая значимость: предложенная модель управления масштабированием системы хранения данных необходима для своевременного выделения емкости для поступающих на хранение данных. Реализация этой модели на входе хранилища позволяет автоматизировать процесс подключения носителей, что предотвращает потерю входящих в систему данных.