Машинное обучение поможет в диагностике суперкомпьютеров

Ученые и инженеры из Sandia National Laboratories и Boston University недавно получили премию Гаусса на Международной конференции суперкомпьютеров. Они были удостоены ее за разработку, способную автоматически диагностировать проблемы и фиксировать их в суперкомпьютерах, используя машинное обучение.

Оказывается, суперкомпьютеры, которые способны выполнять широчайший спектр задач — от прогнозирования погоды и исследований рака, до обеспечения безопасности и надежности ядерного оружия, могут также давать сбои. Они содержат сложный набор взаимосвязанных частей и процессов, которые могут выйти из строя. Например, части могут сломаться, предыдущие программы могут оставить «процессы-зомби», которые по сути завершены, но все еще присутствуют в списке процессов операционной системы, сетевой трафик может вызвать замедления в работе или изменения программного кода компьютера может спровоцировать проблемы. Эти проблемы часто приводят к тому, что программы не могут запуститься и теряется ценное время суперкомпьютера.

Команда составила список проблем, с которыми она столкнулись при работе с суперкомпьютером, а затем написала код для воссоздания этих проблем или аномалий. Они управляли различными программами с кодами аномалий и без них на двух суперкомпьютерах, один располагался в Сандии, а второй — общедоступная облачная система, управляемая Бостонским университетом.

Во время выполнения программы, исследователи собирали данные о процессе, контролируя, сколько энергии, мощности процессора и памяти использовалось каждым узлом. Мониторинг более 700 критериев использовал менее 0,005% вычислительной мощности суперкомпьютера, и именно здесь и начинается машинное обучение.

Суперкомпьютеры и машинное обучение

Машинное обучение — это широкая коллекция компьютерных алгоритмов, которые выбирают нужные паттерны, не будучи явно запрограммированными. Команда написала несколько алгоритмов машинного обучения, которые обнаруживают аномалии, сравнивая данные нормально выполняемых программ с аномалиями. Они протестировали алгоритмы, чтобы узнать, что лучше всего правильно диагностирует аномалии. Например, один метод, называемый Random Forest, был особенно полезен при анализе огромных количеств контролируемых данных и определении важных показателей, а затем определении того, влияет ли на суперкомпьютер аномалия.

Чтобы ускорить анализ, команда рассчитала различные статистические данные для каждой метрики. Простые статистические значения (такие как средний, пятый и 95-й процентили), а также более сложные значения (такие как шумность, отклонения по времени и симметрия), указывают на ненормальное поведение и, следовательно, на потенциальные предупреждающие знаки. Вычисление этих значений не требует большой вычислительной мощности, и они оптимизируют остальную часть анализа.

В настоящее время команда работает с более искусственными аномалиями и более полезными алгоритмами. Важнейшей будущей задачей является проверка методов диагностики реальных аномалий, обнаруженных во время обычных прогонов.

Благодаря относительно низкой вычислительной стоимости запуска алгоритмов машинного обучения, диагностика может использоваться в реальном времени, что также необходимо протестировать. Инженеры надеются, что диагностика, в конечном счете, сможет информировать пользователей и персонал о работе аномалий по мере их возникновения или даже самостоятельно предпринять меры для их исправления или устранения.

Добавить комментарий