Пример процесса разделения и повторения на спектрограммах log-Mel. Исходная спектрограмма log-Mel (A), нарезанные сегменты (B и C) и сегмент (C), повторенный до 3 с (D). Кредит: Intelligent Computing (2024). DOI: 10.34133/icomputing.0088
Недавние достижения в распознавании речевых эмоций выявили значительный потенциал технологий глубокого обучения в различных приложениях. Однако эти модели глубокого обучения подвержены состязательным атакам.
Группа исследователей из Миланского университета систематически оценивала влияние атак «белого ящика» и «черного ящика» на различные языки и гендеры в распознавании речевых эмоций. Исследование было опубликовано 27 мая в журнале Intelligent Computing.
Исследование подчеркивает значительную уязвимость моделей долговременной краткосрочной памяти сверточной нейронной сети к состязательным примерам, которые представляют собой тщательно разработанные «возмущенные» входные данные, которые приводят к тому, что модели выдают ошибочные прогнозы. Результаты показывают, что все рассмотренные состязательные атаки могут значительно снизить производительность моделей распознавания речевых эмоций. По словам авторов, восприимчивость этих моделей к состязательным атакам «может вызвать серьезные последствия».
Исследователи предложили методологию обработки аудиоданных и извлечения признаков, адаптированную к архитектуре долговременной краткосрочной памяти сверточной нейронной сети. Они изучили три набора данных: EmoDB для немецкого языка, EMOVO для итальянского языка и RAVDESS для английского языка. Они использовали метод Fast Gradient Sign, базовый итеративный метод, DeepFool, атаку Saliency Map на основе якобиана и Carlini and Wagner для атак белого ящика, а также атаку One-Pixel и атаку Boundary для сценариев черного ящика.
Атаки черного ящика, особенно атака границы, достигли впечатляющих результатов, несмотря на ограниченный доступ к внутренним работам моделей. Хотя атаки белого ящика не имели таких ограничений, атаки черного ящика иногда превосходили их; то есть они генерировали состязательные примеры с превосходной производительностью и меньшими нарушениями.
Авторы заявили: «Эти наблюдения вызывают тревогу, поскольку они подразумевают, что злоумышленники могут потенциально достичь замечательных результатов без какого-либо понимания внутренней работы модели, просто внимательно изучив ее вывод».
Исследование включало гендерную перспективу для изучения дифференциального воздействия состязательных атак на мужскую и женскую речь, а также на речь на разных языках. При оценке воздействия атак на трех языках были обнаружены лишь незначительные различия в производительности.
Английский язык оказался наиболее восприимчивым, а итальянский продемонстрировал самую высокую устойчивость. Детальное исследование мужских и женских образцов показало небольшое превосходство мужских образцов, которые показали незначительно меньшую точность и возмущение, особенно в сценариях атак белого ящика. Однако различия между мужскими и женскими образцами были незначительными.
«Мы разработали конвейер для стандартизации образцов по 3 языкам и извлечения спектрограмм log-Mel. Наша методология включала в себя расширение наборов данных с использованием методов смещения высоты тона и растяжения времени при сохранении максимальной продолжительности образца в 3 секунды», — пояснили авторы. Кроме того, для обеспечения методологической согласованности команда использовала одну и ту же архитектуру сверточной нейронной сети с долговременной краткосрочной памятью для всех экспериментов.
Хотя публикация исследований, раскрывающих уязвимости в моделях распознавания речевых эмоций, может показаться, что она может предоставить злоумышленникам ценную информацию, непредоставление этих результатов может быть потенциально более пагубным. Прозрачность в исследованиях позволяет как злоумышленникам, так и защитникам понимать слабые стороны этих систем.
Раскрывая эти уязвимости, исследователи и специалисты могут лучше подготовить и укрепить свои системы от потенциальных угроз, в конечном итоге способствуя созданию более безопасного технологического ландшафта.
Дополнительная информация: Николас Факкинетти и др., Систематическая оценка состязательных атак против моделей распознавания речевых эмоций, Интеллектуальные вычисления (2024). DOI: 10.34133/icomputing.0088 Предоставлено Intelligent Computing