Microsoft объявили о новой модели ИИ VALL-E преобразования текста в речь

Статьи 11 Январь 2023

«Mirnewsa» цитирует отчет ArsTechnica: В четверг исследователи Microsoft объявили о новой модели искусственного интеллекта преобразования текста в речь под названием VALL-E, которая может точно имитировать голос человека при получении трехсекундного звукового образца.

Как только VALL-E выучит конкретный голос, он может синтезировать звук, когда этот человек говорит что угодно, и делает это таким образом, чтобы попытаться сохранить эмоциональный тон говорящего. Его создатели предполагают, что VALL-E можно использовать для высококачественных приложений преобразования текста в речь, редактирования речи, когда запись человека может быть отредактирована и изменена из текстовой расшифровки (заставляя их говорить то, чего они изначально не говорили), и создание аудиоконтента в сочетании с другими генеративными моделями ИИ, такими как GPT-3.

Microsoft называет VALL-E «языковой моделью нейронного кодека», и она основана на технологии EnCodec, о которой Meta объявила в октябре 2022 года. В отличие от других методов преобразования текста в речь, которые обычно синтезируют речь, манипулируя формами сигналов, дискретные коды аудиокодеков из текстовых и акустических подсказок. Он в основном анализирует, как звучит человек, разбивает эту информацию на отдельные компоненты (называемые «токенами») благодаря EnCodec и использует обучающие данные, чтобы сопоставить то, что он «знает» о том, как этот голос будет звучать, если он произнесет другие фразы за пределами трех, — второй образец.

Или, как говорит Microsoft в документе VALL-E(PDF): «Чтобы синтезировать персонализированную речь (например, TTS с нулевым выстрелом), VALL-E генерирует соответствующие акустические маркеры, основанные на акустических маркерах 3-секундной зарегистрированной записи и фонемной подсказке, которые ограничивают говорящего и информацию о содержании. соответственно. Наконец, сгенерированные акустические токены используются для синтеза окончательной формы сигнала с помощью соответствующего декодера нейронного кодека». При использовании VALL-E для получения этих результатов исследователи передали в VALL-E только трехсекундный образец «Speaker Prompt» и текстовую строку (то, что они хотели сказать голосом).

Так что сравните образец «Наземной правды» с образцом «ВАЛЛ-И». В некоторых случаях эти две выборки очень близки.

Некоторые результаты VALL-E кажутся сгенерированными компьютером, но другие потенциально могут быть ошибочно приняты за человеческую речь, что является целью модели. Помимо сохранения вокального тембра и эмоционального тона говорящего, VALL-E также может имитировать «акустическое окружение» сэмпла аудио.

Например, если сэмпл взят из телефонного звонка, аудиовыход будет имитировать акустические и частотные свойства телефонного звонка в его синтезированном выходе (это причудливый способ сказать, что это тоже будет звучать как телефонный звонок). А образцы Microsoft (в разделе «Синтез разнообразия») демонстрируют, что VALL-E может генерировать вариации тона голоса, изменяя случайное начальное число, используемое в процессе генерации.

Microsoft не предоставила код VALL-E другим для экспериментов, вероятно, чтобы избежать разжигания дезинформации и обмана.

В заключение исследователи пишут: «Поскольку VALL-E может синтезировать речь, сохраняющую идентичность говорящего, она может нести потенциальные риски неправильного использования модели, такие как подделка голосовой идентификации или выдача себя за конкретного говорящего. Чтобы снизить такие риски, можно чтобы построить модель обнаружения, чтобы различать, был ли аудиоклип синтезирован VALL-E. Мы также будем применять принципы искусственного интеллекта Microsoft при дальнейшей разработке моделей».