Система извлекает разговорную речь из видеозаписи и преобразует ее в текст с возможностью поиска.

Важные новости

Система извлекает разговорную речь из видеозаписи , преобразует его в текст, доступный для поиска

Фото: Unsplash/CC0 Public Domain

Новый подход к поиску видеоконтента был разработан командой из Южной Кореи. Система, описанная в Международном журнале вычислительного зрения и робототехники, извлекает произнесенное слово из видеозаписи, преобразует его в текст, а затем делает этот текст доступным для поиска. Важно отметить, что система, таким образом, не полагается ни на встроенные ключевые слова, ни на курируемые теги или хэштеги, которые будут связаны с видеоконтентом.

Этот подход, очевидно, основан на диалоге или устном комментарии к элементу, связанному со сценами в видео, которые пользователи могут захотеть найти. Конечно, это излишне, если в видео уже встроены субтитры. Тем не менее, это будет благом для пользователей, желающих искать миллионы часов видео, доступных в базах данных, на потоковых сервисах и в других местах в Интернете, и может быть используется для каталогизации видео.

Китаэ Хван, Ин Хван Юнг и Джэ Мун Ли из Школы компьютерной инженерии Университета Хансон в Сеуле разработали приложение для Android для использования с соответствующими смартфонами. Однако стоит отметить, что существует как минимум еще одно приложение с таким же названием, поэтому, если это приложение будет доступно в Google Play Store для приложений Android, ему, скорее всего, потребуется изменить название.

<р>Новое приложение извлекает аудио из видео с помощью кода FFmpeg и преобразует его в текст с шагом в 10 секунд. Это, как объясняет команда, создает временную шкалу с возможностью поиска по видео. Усовершенствованная технология распознавания речи затем генерирует транскрипцию этих аудиосегментов, которые индексируются на временной шкале видео.

Для 20-минутного видео процесс завершается всего за две-три минуты и выполняется в фоновом режиме. пока воспроизводится видео. Команда отмечает, что пользователи смогут затем искать определенные термины и находить все упоминания в видео.

В приложении будут приложения для образования, анализа новостей и других насыщенных информацией видео, обеспечивающих быстрый доступ к конкретной информации. необходим. Например, это приложение могут использовать студенты, просматривающие записи лекций, или журналисты, ищущие конкретные высказывания в интервью. Существует множество других сценариев, в которых было бы полезно иметь возможность поиска видео таким способом.

Дополнительная информация: Китаэ Хван и др., Реализация видеоплеера с возможностью поиска, Международный журнал вычислительного зрения и робототехники (2024 г.). DOI: 10.1504/IJCVR.2024.138324 Предоставлено Inderscience

Новости сегодня

Последние новости