Meta✴ разработала аудиокодек EnCodec на ИИ — сжимает в 10 раз сильнее, чем MP3 при том же качестве

Компания Meta✴ представила новый звуковой кодек EnCodec, который использует методы машинного обучения для повышения степени сжатия без потери качества — в результате он способен сжимать аудио в 10 раз сильнее, чем MP3 при том же качестве. Об этом сообщает издание Ars Technica.

Источник изображений: Meta✴ AI

Кодек EnCodec может применяться как для потоковой передачи звука в режиме реального времени, например, при телефонных звонках в районах нестабильной связи, так и при кодировании для последующего сохранения в файлах.

Разработчики сообщили, что система сжатия EnCodec состоит из трёх частей. Сначала кодировщик преобразует несжатые данные в специальный формат с более низким битрейтом. Затем полученный формат сжимается до необходимого размера, но сохраняется важная информация, которая будет использована для восстановления исходного сигнала. В конечном итоге декодер в режиме реального времени преобразует сжатые данные обратно в звуковые волны с помощью нейронной сети.

В компании отмечают, что нейросеть грамотно сжимает звук и разница между звуков до и после сжатия не будет восприниматься человеческим слухом. Нейросети для сжатия звука используются давно, однако Meta✴ первой применила технологию к стереозвуку при 48 кГц.

Технология EnCodec по-прежнему находится на стадии разработки и тестирования. Разработчики не говорят о сроках её внедрения в свои сервисы и поддержке другими компаниями.

Источник: