Оценка времени отклика среды для вычислений с интенсивным использованием данных
Ключевые слова:
приложения с интенсивным использованием данных, параллельные вычисления, система массового обслуживания, среднее время отклика, нейронные сетиАннотация
Введение: объем цифровых данных непрерывно растет так же, как и потребность в их хранении и обработке в различных целях. Для проведения анализа данных используются высокопроизводительные вычислительные среды, связанные с методами распараллеливания, и, соответственно, приложения, интенсивно использующие данные. Отсутствие качественных инструментов оценки эффективности процесса параллельной обработки данных или задач приводит к избыточному выделению ресурсов. Цель: разработать математические модели сред для вычислений с интенсивным использованием данных и методы анализа их производительности, т. е. оценки среднего времени отклика системы на основе данных о производительности системы на уровне решения подзадач. Результаты: представлена математическая модель системы параллельных вычислений в виде системы массового обслуживания с параллельной обработкой заявок с различными вариантами архитектуры, в том числе с отличным от пуассоновского входящим потоком и неэкспоненциальным распределением времени обслуживания. В качестве метода анализа ее среднего времени отклика используется комбинация имитационного моделирования с одним из методов машинного обучения (искусственные нейронные сети). Эффективность метода подтверждается численными экспериментами и не зависит от типа входящего потока, типа распределения времени обслуживания заявок, а также от количества приборов в узлах системы. Погрешность аппроксимации среднего времени отклика не превышает 10 %, что позволяет оптимизировать общепринятую стратегию избыточного выделения ресурсов, значительно сократив их объем. Практическая значимость: представленные модели и метод их анализа могут быть использованы для эффективного планирования распределения ресурсов систем с интенсивным использованием данных.