Meta представила метод сжатия звука с помощью искусственного интеллекта

Meta представила метод сжатия звука с помощью искусственного интеллекта

На прошлой неделе Meta анонсировала метод сжатия звука на основе искусственного интеллекта под названием EnCodec, который, как сообщается, может сжимать звук в 10 раз меньше, чем в формате MP3, со скоростью 64 кбит/с без потери качества.

Meta представила метод сжатия звука с помощью искусственного интеллекта
Фото: © Ars Technica

Мета говорит, что этот метод может значительно улучшить качество звука речи при низкоскоростных соединениях, например, при телефонных звонках в районах с нестабильным обслуживанием. Эта техника работает и для музыки.

Ars Technica сообщает: Meta дебютировала с технологией 25 октября в статье под названием «High Fidelity Neural Audio Compression», автором которой являются исследователи Meta AI Александр Дефоссе, Джейд Копет, Габриэль Синнев и Йосси Ади. Meta также подвела итог исследования в своем блоге, посвященном EnCodec.

Meta описывает свой метод как систему из трех частей, обученную сжимать звук до желаемого целевого размера. Во-первых, кодировщик преобразует несжатые данные в представление «скрытого пространства» с более низкой частотой кадров.

Затем «квантизатор» сжимает представление до целевого размера, сохраняя при этом наиболее важную информацию, которая позже будет использоваться для восстановления исходного сигнала. (Этот сжатый сигнал передается по сети или сохраняется на диск.) Наконец, декодер преобразует сжатые данные обратно в звук в режиме реального времени, используя нейронную сеть на одном процессоре.

Мета использует дискриминаторы оказывается ключом к созданию метода максимально возможного сжатия звука без потери ключевых элементов сигнала, которые делают его отличительным и узнаваемым: «Ключ к сжатию с потерями заключается в выявлении изменений, которые не будут восприниматься людьми, поскольку идеальная реконструкция Это невозможно при низких скоростях передачи данных. Для этого мы используем дискриминаторы для улучшения качества восприятия сгенерированных образцов. Это создает игру в кошки-мышки, в которой задача дискриминатора состоит в том, чтобы различать реальные образцы и реконструированные образцы.

Модель сжатия пытается генерировать образцы, чтобы обмануть дискриминаторы, подталкивая реконструированные образцы, чтобы они были более похожи на исходные образцы».