Наушники с искусственным интеллектом позволяют пользователю слушать одного человека в толпе, взглянув на него всего один раз.

Важные новости

Наушники с искусственным интеллектом позволяют носить послушайте одного человека в толпе, взглянув на него всего один раз» /></p>
<p> Фото: Вашингтонский университет </p>
<p>Наушники с шумоподавлением очень хорошо справляются с созданием слухового чистого листа. Но стирание определенных звуков из окружающей среды пользователя по-прежнему является сложной задачей для исследователей. Например, последняя версия Apple AirPods Pro автоматически регулирует уровни звука для пользователей — например, определяя, когда они разговаривают, — но у пользователя мало контроля над тем, кого слушать или когда это происходит.</p>
<p> < р>Команда Вашингтонского университета разработала систему искусственного интеллекта, которая позволяет пользователю в наушниках смотреть на говорящего человека в течение трех-пяти секунд, чтобы «зарегистрировать» его. Система, получившая название «Целевой речевой слух», затем подавляет все остальные звуки в окружающей среде и воспроизводит только голос зарегистрированного говорящего в реальном времени, даже когда слушатель перемещается в шумных местах и ​​больше не смотрит на говорящего.</p>
<p >Команда представила свои выводы 14 мая в Гонолулу на конференции ACM CHI по человеческому фактору в вычислительных системах. Код для экспериментального устройства доступен для дальнейшего использования другими. Система коммерчески недоступна.</p>
<p> <iframe class= Авторы: Вашингтонский университет

«Сейчас мы склонны думать об искусственном интеллекте как о веб-чат-ботах, которые отвечают на вопросы», — сказал старший автор Шьям Голлакота, профессор Университета Вашингтона в Школе компьютерных наук Пола Г. Аллена. Инженерия. «Но в этом проекте мы разрабатываем искусственный интеллект, чтобы изменить слуховое восприятие любого, кто носит наушники, с учетом его предпочтений. С помощью наших устройств вы теперь можете четко слышать одного говорящего, даже если вы находитесь в шумной обстановке, когда разговаривает много других людей».

Чтобы воспользоваться системой, человек, носящий готовые наушники с микрофонами, нажимает кнопку, направляя голову на говорящего. Звуковые волны от голоса говорящего должны одновременно достичь микрофонов на обеих сторонах гарнитуры; погрешность составляет 16 градусов. Наушники отправляют этот сигнал на бортовой встроенный компьютер, где программное обеспечение машинного обучения изучает вокальные образцы желаемого говорящего. Система фиксирует голос говорящего и продолжает воспроизводить его слушателю, даже когда пара перемещается. Способность системы концентрироваться на зарегистрированном голосе улучшается по мере того, как говорящий продолжает говорить, предоставляя системе больше обучающих данных.

Команда протестировала свою систему на 21 испытуемом, которые в среднем оценили четкость голоса зарегистрированного говорящего почти в два раза выше, чем нефильтрованный звук.

Эта работа основана на предыдущем исследовании команды по «семантическому слуху», которое разрешил пользователям выбирать определенные классы звуков (например, голоса птиц или голоса), которые они хотели услышать, и отменил другие звуки в окружающей среде.

В настоящее время система TSH может зарегистрировать только один динамик за раз, и это только возможность зарегистрировать говорящего, когда нет другого громкого голоса, исходящего с того же направления, что и голос целевого говорящего. Если пользователя не устраивает качество звука, он может провести еще одну регистрацию динамика, чтобы улучшить четкость.

Команда работает над расширением системы для наушников-вкладышей и слуховых аппаратов в будущем.< /p>

Дополнительными соавторами статьи были Бандхав Велури, Малек Итани и Туочао Чен, аспиранты Школы Аллена Университета Вашингтона, а также Такуя Ёсиока, директор по исследованиям в AssemblyAI.

Предоставлено Вашингтонским университетом

Новости сегодня

Последние новости