Google опубликовал исходный код бета-версии аудиокодека Lyra на GitHub, сделав невероятно качественную обработку звука с низким битрейтом доступной для всех разработчиков. Кодек наиболее полезен во встроенных системах и в ситуациях с ограниченной пропускной способностью, когда необходимо сохранить как можно больше данных.
Лира: Почти ничего никогда не звучало так хорошо
Аудиокодек работает по принципу обеспечения максимально естественного звучания речи с минимально возможной скоростью передачи данных. Ему удается создавать почти жуткие уровни воспроизведения звука с битрейтом всего 3 кбит / с. Google уже использует сжатие Lyra в реальном времени в своем приложении Duo, хотя вас не обвинят в том, что вы даже не заметили разницы с обычным звуком с пропускной способностью.
Чтобы продемонстрировать, насколько Lyra лучше других кодеков, Google предоставляет примеры через Сообщение блога сравнение кодека сжатия, управляемого машинным обучением, с другими альтернативами 3 и 6 кбит / с.
Разница между днем и ночью, и предоставление разработчикам всего мира этих инструментов станет важным фактором повышения качества связи там, где пропускная способность ограничена. Это также отличный мотиватор для разработчиков, стремящихся создавать новые приложения на развивающихся рынках, что Google обязательно расскажет в этом году.
бесплатная виртуальная онлайн-конференция Google I / O.Исходный код бета-версии в настоящее время разработан с учетом 64-битных устройств Arm, хотя примеры также будут работать в 64-битных системах x86 Linux. Исходный код полностью задокументирован, хотя он находится в стадии бета-тестирования, а на странице GitHub представлены инструкции по установке и инструкции по сборке Lyra в Linux для 64-битных целей Arm.
Чтобы получить исходный код бета-версии Lyra, перейдите на Страница Lyra на GitHub.
Как работает Лира?
Хотя фактический процесс, который использует Lyra, представляет собой невероятно сложную комбинацию моделей машинного обучения, обученных на тысячи часов речевых данных и оптимизации существующей технологии аудиокодеков, теория вполне просто.
Каждые 40 мс функции берутся из речи и сжимаются до 3 кбит / с. Эти функции представляют собой точки речевой энергии в частотном спектре, наиболее близкие к слуховой речевой реакции человека - то, что нам нужно распознать и понять, когда кто-то говорит.
Ключевой частью того, что делает Lyra особенным, является то, как она использует эту информацию:
Однако традиционные параметрические кодеки, которые просто извлекают из речи критические параметры, которые затем могут быть используется для воссоздания сигнала на приемном конце, для достижения низких битрейтов, но часто звучит роботизированно и неестественно. Эти недостатки привели к разработке нового поколения высококачественных моделей генерации звука, которые имеют произвел революцию в этой области, имея возможность не только различать сигналы, но и генерировать совершенно новые единицы.
После передачи Lyra восстанавливает форму волны, заполняя то, что отсутствует, используя этот процесс, при этом не будучи слишком сложным в вычислительном отношении.
С одной стороны, это чудо техники, которое можно использовать практически везде. С другой стороны, я до сих пор не уверен на 100%, что это не колдовство.
Google Duo - одно из лучших приложений для видеосвязи. В нем много функций, и вот те, которые, по нашему мнению, вам действительно стоит использовать.
Читать далее
- Новости техники
- Android
- Машинное обучение

Ян Бакли - независимый журналист, музыкант, исполнитель и видеопродюсер, живущий в Берлине, Германия. Когда он не пишет или на сцене, он возится с электроникой или кодом своими руками в надежде стать безумным ученым.
Подписывайтесь на нашу новостную рассылку
Подпишитесь на нашу рассылку, чтобы получать технические советы, обзоры, бесплатные электронные книги и эксклюзивные предложения!
Еще один шаг…!
Пожалуйста, подтвердите свой адрес электронной почты в электронном письме, которое мы вам только что отправили.