«Вы слышите меня?» Системы распознавания звука современных роботов

 «Audition» на латыни означает способность слышать или распознавать звуки. Ученые в Японии теперь пытаются научить слышать и понимать услышанное роботов.

«Robot Audition» — исследовательская область, предложенная профессором Кадзухиро Накадаем из Токийского технологического института и профессором Хироши Г. Окуно из Университета Васеда в 2000 году. До их исследования роботы не имели возможности распознавать голос, если только он не был передан непосредственно через микрофон. Создание «ушей» для робота требует сложного подхода, сочетающего несколько областей технологии в одну сплоченную систему.

Создание «слушающих» роботов

Современные роботы могут слышать, распознавать и исполнять голосовые команды

Входной барьер для исследований роботизированного прослушивания был высоким. Он объединил обработку сигналов, робототехнику и искусственный интеллект (AI) в одну группу, а еще в 2000 году некоторые из этих областей, особенно AI, находились в зачаточном состоянии. Один шаг, который приносил пользу Накадаю и Окуно, заключался в том, чтобы сделать свою исследовательскую публикацию свободной для использования. Это помогло увеличить интерес к их разработке и диверсифицировать исследования, увеличив их до такой степени, что они были официально зарегистрировано в 2014 году Ассоциацией робототехники и автоматизации IEEE, одной из крупнейших сообществ в области роботизированных исследований.

Для создания «роботизированных ушей» требуются три ключевые технологии. Во-первых, это разработка технологии локализации источников звука, которая позволит роботу оценить, откуда происходит звук. Второй — разделение звука и источника для извлечения точного направления звука. Третий — автоматическое распознавание речи для распознавания и различения отдельных звуков от фонового шума. Команда проводила исследования в реальных условиях и в режиме реального времени.

Программное обеспечение «прослушивания роботов» было названо HARK (HRI-JP Audition для роботов Киотского университета). HARK обновляется каждый год с момента его выпуска в 2008 году и превысил 120 000 загрузок по состоянию на декабрь 2017 года. Программное обеспечение было расширено для поддержки встроенного использования, сохраняя при этом свою надежность шумоподавления.

Слышащие роботы и беспилотники (БПЛА)

Несколько инженерных команд уже использовали HARK в проектах. Например, исследовательский институт Хонды использовал HARK для создания HEARBO (сокращение от Hearing Robot). Их направление исследований называется «вычислительным анализом слуховой сцены». HEARBO может слушать, различать и анализировать сразу несколько источников звука.

Спасательный дрон использует микрофонную решетку вместо других сенсорных технологий для обнаружения - через звуки потерпевших в труднодоступных местах с ограниченной видимостью

Силой технологии HEARBO является ее способность анализировать, просеивать и сортировать различные перекрывающиеся звуки. Он может различать детей, играющих в комнате, и звонок во входную дверь. Робот использует те же три шага, чтобы идентифицировать звуки, перечисленные в исследовании от Накадай и Окуно. Часть локализации источника звука (SSL) «прослушивание робота» передает местоположение и количество источников звука. SSL для роботов требует шума, высокой разрешающей способности и обработки в реальном времени в нормальной и в шумной среде.

Внедрение HARK в беспилотные летательные аппараты — результат различных исследований в области обработки звука. Проект является частью исследовательской задачи от кабинета министров Японии ImPACT Tough Robotics Challenge. Его возглавляет руководитель программы Сатоши Тадокоро из Университета Тохоку. Реализация программного обеспечения HARK в беспилотнике создает систему, которая может обнаруживать голоса, звуки мобильных устройств и другие звуки от жертв стихийных бедствий, одновременно отфильтровывая фоновый шум дрона для ускорения обнаружения и помощи жертвам стихийных бедствий.

Система распознавания звука беспилотного летательного аппарата состоит из микрофонной решетки, которая заменяет ранее установленные датчики. Используя микрофонную решетку вместо исходных датчиков, она уменьшила вес беспилотного летательного аппарата и увеличила скорость высокоскоростной обработки данных за счет сокращения вычислительной  нагрузки. Из-за устранения других датчиков меньше данных передается на базовую станцию. Общий объем передачи данных был уменьшен менее чем 1/100.

Чтобы помочь в обнаружении, программное обеспечение использует трехмерную технологию определения местоположения источника звука с отображением карты. Помощник профессора Таро Сузуки из Университета Васеда предоставил данные о облачных точках с высокой точностью, что стало результатом его исследований по высокопроизводительному GPS. Это позволяет программному обеспечению создавать понятный визуальный интерфейс пользователя на основе источников звука. Всепогодная микрофонная решетка состоит из 16 микрофонов, все из которых подключены через один кабель, что упрощает процесс установки и в конечном итоге дает возможность беспилотным летательным аппаратам выполнять поиск и спасание в неблагоприятные погодные условия.

Имитация жертвы бедствия, нуждающаяся в спасении, найдена среди щебня (глиняная труба) с помощью аудио (голоса и свистки). Синие круги на карте (вверху справа) указывают обнаруженные местоположения источника звука

В течение первых 72 часов после катастрофы вероятность выживания резко снижается для потерпевших. В настоящее время беспилотные летательные аппараты, используемые для поиска и спасания, используют камеры и датчики для обнаружения жертв. Внедряя звуковое обнаружение, жертвы, оказавшиеся в темных местах или районах с ограниченной видимостью, имеют значительно больше шансов на спасение.

Исследовательская группа стремится улучшить систему, добавив функциональность для классификации типов источников звука. Это помогает БПЛА фокусироваться на источнике звука от потерпевших, фильтруя посторонние звуки. Другая цель — разработать систему как пакет интеллектуальных датчиков, которые затем могут быть подключены к другим беспилотным летательным аппаратам с различной технологией обнаружения, создавая всеохватывающий блок местоположения.

Добавить комментарий