Speex: бесплатный кодек для свободы слова-tonmind.com

Блог

Категории

блог

Новый блог

Аудиорешение Tonmind для небольшого офиса: более эффективная коммуникация с IP-динамиками и IP-системой оповещения
Tonmind запускает новый IP-динамик для класса для более эффективной школьной коммуникации
Умные решения интерком-систем для парковок от Tonmind для офисных зданий
IP-рупорные динамики против IP-потолочных динамиков против IP-настенных динамиков
Умные решения систем оповещения TONMIND для железнодорожных вокзалов и аэропортов

Теги

Speex: бесплатный кодек для свободы слова

November 17 , 2021

Обзор

Speex - это свободный от патентов формат сжатия звука с открытым исходным кодом и бесплатным программным обеспечением, предназначенный для речи. Проект Speex направлен на снижение входного барьера для голосовых приложений, предоставляя бесплатную альтернативу дорогостоящим проприетарным речевым кодекам. Более того, Speex хорошо адаптирован к Интернет-приложениям и предоставляет полезные функции, которых нет в большинстве других кодеков. Наконец, Speex является частью проекта GNU и доступен под пересмотренной лицензией BSD.

Speex нацелен на передачу голоса по IP (VoIP) и сжатие на основе файлов. Целью проектирования было создание кодека, который был бы оптимизирован для высококачественной речи и низкой скорости передачи данных. Для этого кодек использует несколько битрейтов и поддерживает сверхширокополосный, широкополосный и узкополосный.. Кодек определен как устойчивый к потерянным пакетам, но слабый к поврежденным. Все это привело к выбору линейного предсказания с кодовым возбуждением (CELP) в качестве метода кодирования для использования в Speex.

Функции

Частота выборки
Speex в основном разработан для трех различных частот дискретизации: 8 кГц (такая же частота дискретизации для передачи телефонных вызовов), 16 кГц и 32 кГц. Они соответственно называются узкополосными, широкополосными и сверхширокополосными.

Качественный
Кодирование Speex контролируется большую часть времени параметром качества, который находится в диапазоне от 0 до 10. При работе с постоянной скоростью передачи (CBR) параметр качества является целым числом, а для переменной скорости передачи данных (VBR) параметр является вещественное число (с плавающей запятой).

Сложность (переменная)
С помощью Speex можно изменять разрешенную для кодировщика сложность. Это делается путем управления тем, как выполняется поиск с целым числом от 1 до 10, аналогично параметрам от -1 до -9 в утилитах сжатия gzip. При нормальном использовании уровень шума на уровне сложности 1 на 1-2 дБ выше, чем на уровне сложности 10, но требования к ЦП для сложности 10 примерно в пять раз выше, чем для сложности 1. На практике лучший компромисс между сложностью 2 и 4, [13] хотя более высокие настройки часто полезны при кодировании неречевых звуков, таких как тоны DTMF, или если кодирование не в реальном времени.

Переменная скорость передачи данных (VBR)
Переменная скорость передачи данных (VBR) позволяет кодеку динамически изменять скорость передачи данных, чтобы адаптироваться к «сложности» кодируемого звука. В примере Speex звуки, подобные гласным, и высокоэнергетические переходные процессы требуют более высокой скорости передачи битов для достижения хорошего качества, в то время как фрикативные звуки (например, звуки s и f) могут быть адекватно кодированы с меньшим количеством бит. По этой причине VBR может обеспечить более низкую скорость передачи данных при том же качестве или более высокое качество при определенной скорости передачи данных. Несмотря на свои преимущества, VBR имеет три основных недостатка: во-первых, указание только качества не дает никаких гарантий относительно окончательной средней скорости передачи данных. Во-вторых, для некоторых приложений реального времени, таких как передача голоса по IP (VoIP), учитывается максимальная скорость передачи данных, которая должна быть достаточно низкой для канала связи. В-третьих, шифрование речи с кодировкой VBR не может гарантировать полную конфиденциальность, поскольку фразы все еще можно идентифицировать, по крайней мере, в контролируемой настройке с помощью небольшого словаря фраз [14], анализируя характер изменения скорости передачи данных.

Средняя скорость передачи данных (ABR)
Средняя скорость передачи данных решает одну из проблем VBR, поскольку она динамически регулирует качество VBR для достижения определенной целевой скорости передачи данных. Поскольку качество / скорость передачи данных регулируются в реальном времени (разомкнутый цикл), общее качество будет немного ниже, чем качество, полученное при кодировании в VBR с точно правильной настройкой качества для достижения целевого среднего битрейта.

Обнаружение голосовой активности (VAD)
Если этот параметр включен, обнаружение голосовой активности определяет, является ли кодируемый звук речью или тишиной / фоновым шумом. VAD всегда неявно активируется при кодировании в VBR, поэтому этот параметр полезен только при работе без VBR. В этом случае Speex обнаруживает периоды отсутствия речи и кодирует их с помощью достаточного количества битов для воспроизведения фонового шума. Это называется «генерацией комфортного шума» (СПГ). Последняя версия VAD работала нормально - 1.1.12, с версии 1.2 она была заменена простым обнаружением любой активности.

Прерывистая передача (DTX)
Прерывистая передача - это дополнение к работе VAD / VBR, которое позволяет полностью прекратить передачу, когда фоновый шум является стационарным. В файле для каждого отсутствующего кадра используется 5 бит (что соответствует 250 бит / с).

Улучшение восприятия
Улучшение восприятия - это часть декодера, который при включении пытается уменьшить (восприятие) шума, создаваемого процессом кодирования / декодирования. В большинстве случаев улучшение восприятия делает звук дальше от оригинала объективно (отношение сигнал / шум), но в конечном итоге он все равно звучит лучше (субъективное улучшение).

Алгоритмическая задержка
Каждый кодек вносит задержку при передаче. Для Speex эта задержка равна размеру кадра плюс некоторый «упреждающий просмотр», необходимый для обработки каждого кадра. В узкополосном режиме (8 кГц) задержка составляет 30 мс, а в широкополосном (16 кГц) задержка составляет 34 мс. Эти значения не учитывают процессорное время, необходимое для кодирования или декодирования кадров.

TONMIND, разработчик и производительIPS пик с 2014 года. SIP Speakers применили обработку звука Speex для улучшения качества звука.

Наш Динамики IP-пейджинга Кодек включает OPUS, G711U, G711A, G722, GSM, MP1, MP2, MP3, WAV, LPCM s16le. Различные кодеки также обеспечивают отличное качество звука.

Tomind SIP-динамик может применяться в различных случаях применения, например, в школе, коммерческом галопе, центре обслуживания клиентов, отеле, больнице, крупных площадках и т. д. Пользователи могут подключать динамики SIP к IPPBX или программному обеспечению системы громкой связи, разработанному нашей командой R & D . Он также может работать с программным обеспечением Axis через многоадресную рассылку RTP.

Сила ядра Tonmind включает в себя:

• Более 10 лет опыта в аудио и видео VoIP.

• Эксклюзивная техническая поддержка.
• Хорошо обученная команда клиентов.
• Ориентированной на клиента.
• Быстрая реакция рынка.

Теги :