Одновременная передача голоса и данных через канал тональной частоты

Последнее время очень популярной считается тема передачи голоса через InterNet. Не углубляясь в подробности я скажу, что на сегодняшний день, по крайней мере, в наше стране на практике это почти не возможно. И главное из-за чего это невозможно - это большие временные задержки, связанные с низкой пропускной способностью используемых каналов связи. Эта проблема рассматривалась и рассматривается во многих изданиях. Поэтому в этой статье остановимся на более реальном - одновременная передача голоса и данных. Эта необходимость может возникнуть, например, в медицине, когда необходимо пояснять выводимую на экран информацию, а также во многих других областях, где требуется вмешательство голоса.

Существуют два конкурирующих между собой основных стандарта. Первый связан с аналоговой передачей голоса и данных (Analog Simultaneous Voice/Data - ASVD), когда данные и звук передаются по отдельным каналам. Второй способ предполагает цифровую передачу голоса вместе с данными (Digital Simultaneous Voice/Data - DSVD). По методу DSVD голос оцифровывается, мультиплексируется с данными и передается в едином потоке. DSVD стандартизирован ITU и описан в рекомендации V.70.

ASVD(рекомендация ITU - V.61) обрабатывает голос, данные, и информацию управления как раздельные объекты. Пользователю, это обеспечивает некоторый комфорт, потому что голос не цифровой. Однако, чтобы обеспечить передачу всех трех каналов, речевая ширина полосы частот ограничивается 2400 Hz и ширина полосы частот данных ограничивается скоростью 4800 бит\сек.

DSVD(рекомендация ITU - V.70) обрабатывает всю информацию которую он получает как цифровую. Речевым пакетам дан приоритет над пакетам данных, но они передаются через ту же самую схему как и данные. Ничего не делается для того, чтобы увеличивать скорости передачи данных, обнаружив паузу. Скорость передачи данных увеличивается только за счет использования протоколов сжатия модема. Он позволяет передавать данные на скорости до 28.8 кбит/с.

Каждая из этих технологий выполняется через режим, который позволяет модему инициализировать режим SVD без приостановки интерактивного соединения. Оба типа модема вызываются телефоном. Когда пользователь поднимает трубку модем пробует установить SVD сеанс с другим модемом. Если удаленный пользователь отвечает поднимая трубку удаленного модема, тогда SVD сеанс устанавливается.

DSVD имеет большое количество технических и практических преимуществ, в то время как ASVD имеет одно, но наиболее существенное преимущество касаемое качества передаваемой речи.

А теперь вашему вниманию хотелось бы предложить еще одно из решений поставленной выше проблемы, одновременной передачи данных и голоса - это передача голоса отдельно от передачи данных в неиспользуемой полосе частот. Поясним это более конкретно. Каналу тональной частоты доступна полоса частот шириной 3100 Гц (от 300 до 3400 Гц), а модемы же, использующие стандартные протоколы передачи данных V.21, V.22, V.22bis...V.32bis, работают в полосе частот, максимально, от 600 до 3000 Гц, оставляя неиспользуемым полосы частот от 300 до 600 Гц и от 3000 до 3400 Гц. Это же относится к некоторым нестандартным протоколам, таким как V.32terbo, HST, ZyX для скоростей до 16800 бит/с. Это не использование связано с завалами частотной характеристики по краям канала ТЧ. В протоколах V.34 и PEP(Turbo PEP) используется вся полоса канала ТЧ, поэтому их исключим из дальнейшего рассмотрения.

Таким образом, мы имеем свободную полосу частот шириной 700 Гц, что не достаточно для передачи речи, но вполне достаточно для передачи сжатой речи. Передаваемая речь не будет влиять на скорость передачи данных(так как она она будет передаваться независимо), то есть скорость модема будет достигать, максимально, 19200 бит/с без учета компрессии. Доработок модем не требует, а необходимо только лишь создать устройство преобразования речи. Процесс установления соединения можно представить следующим: при поднятии трубки посылается вызов противоположной стороне на частоте не входящей в полосу передачи модема(в этот момент модемы передают данные). С той стороны поднимается трубка и, таким образом, устанавливается соединение. Отбой происходит аналогично. На рис. 1 приведена структурная схема этого способа одновременной передачи данных и голоса.

Рис. 1 Структурная схема одновременной передачи данных и голоса

В [1] приводятся несколько способов сжатия речи. Несмотря на то, что книга написана довольно таки давно они не утратили своей актуальности, использовались, используются и думаю еще будут использоваться. Рассмотрим основные из них.

В принципе возможны два способа сжатия речи - непосредственное и параметрическое. Если рассматривать это применительно к частотному сжатию под непосредственным понимается такой способ, при котором компрессия частотного диапазона осуществляется путем непосредственного преобразования спектра без какого-либо его анализа и разложения, а восстановление происходит без применения местных источников сигналов. А параметрическим сжатием называют такой способ преобразования сигнала, при котором его компрессия осуществляется путем выделения из него ограниченного числа медленно меняющихся параметров, по которым сигнал может быть восстановлен, а восстановление производится за счет местных источников, управляемых этим комплексом параметров. Таким образом, при частотном параметрическом сжатии в канал поступает не сам спектр речи, а только лишь сведения об его характерных особенностях (параметрах). Восстановление исходного спектра осуществляется путем воздействия этих сигналов на равномерный спектр, созданный местным генератором, моделирующим те особенности речевого сигнала, сведения о которых не нужно передавать через канал.

Устройства для параметрического частотного сжатия речи получили название вокодеров (англ. voice coder - кодировщик голоса). В зависимости от принятой системы параметров, по которым производится восстановление первообразного речевого сигнала. Различают основные типы вокодеров: полосные, формантные. гармонические. Общий принцип действия вокодера любой системы поясняется на рис. 2.

Рис. 2 Обобщенная блок-схема вокодера

Главными частями вокодерного тракта является анализатор, который осуществляющий выделение параметров речевого сигнала, система передачи, обеспечивающая прохождение информации об этих параметрах через канал связи в узкой полосе частот, и синтезатор, восстанавливающий первообразный речевой сигнал.

Анализатор вокодера состоит из устройства для выделения параметров речевого сигнала A1,A2,...,Ak и схемы выделения основного тона(тон(F0) или шум). Процесс преобразования речи при параметрическом сжатии показан на рис. 3.

Ниже будут рассмотрены лишь простейшие схемы вокодеров, в которых наиболее наглядно представлен основной принцип их действия.

Полосовой вокодер

В полосном вокодере параметрами, описывающими текущий спектр, являются средние уровни энергии речи в полосах, на которые делится частотный диапазон.

Анализатор полосного вокодера состоит из схемы выделения ОТ и устройства для выделения параметров огибающей спектра. Последнее представляет собой совокупность некоторого числа (от 10 до 20) спектральных каналов, в которых производится определение среднего уровня речи. Чем больше будет взято число таких каналов, тем большая будет достигнута точность аппроксимации спектра, но тем меньшим будет коэффициент компрессии.

Погрешность преобразования, как это видно из рис. 4, связана с тем, что реальная огибающая речевого спектра заменена здесь ступенчатой функцией. Степень приближения последней к реальной кривой зависит от числа спектральных каналов.

Рис. 4 Исходный и преобразованный спектр в полосовом вокодере

Полосные вокодеры обеспечивают высокую разборчивость речи (до 85% разборчивости слогов), но натуральность ее, как и в других системах вокодеров, значительно снижается.

Формантный вокодер

В формантных вокодерах восстановление речевого сигнала производится по информации о формантных максимумах. Параметрами, передаваемыми по каналу связи и позволяющими с достаточным приближением синтезировать картину текущего спектра, являются здесь сигналы о средних частотах и уровнях: формант.

Устройство для выделения параметров в анализаторе вокодера состоит из трех каналов, выделяемых с помощью трех широкополосных фильтров ПФ1-ПФ3. Взаимно-перекрывающиеся полосы пропускания этих фильтров соответствуют областям, в которых могут находиться три возможные форманты речевых звуков. На выходе каждого фильтра включено устройство, определяющее частоту и уровень форманты.

В случае формантного вокодера необходимо передать всего 7 параметров.

Рис. 5 иллюстрирует примерное соотношение между спектрами: первичного и синтезированного сигнала. Погрешность воспроизведения, связана с тем, что информация об участках спектра между формантами не передается.

Рис. 5 Примерное сопоставление исходного и преобразованного спектра в формантном вокодере

Формантные вокодеры способны обеспечить больший коэффициент компрессии, чем полосные, но имеют несколько пониженное качество синтезируемой речи (65%).

Гармонический вокодер

В 1958 году А. А. Пироговым был предложен еще один способ построения вокодера, в основе которого лежит гармонический анализ мгновенного спектра, т. е. разложение его огибающей в ряд Фурье с последующей передачей на приемный конец информации о коэффициентах этого ряда.

В основе построения анализатора и синтезатора вокодера этой системы лежит представление мгновенного спектра речи B(w) в виде разложения:

где w - текущая частота, wмакс - верхняя частота спектра, k - членов ряда, соответствующее допустимой погрешности разложения.

Принцип разложения показан на рис. 6.

Рис. 6 Разложение огибающей спектра на гармонические составляющие

Это разложение справедливо для четной периодической функция. Известно, что огибающая речевого спектра в целом не является ни периодической, ни четной функцией частоты. В данном частном случае такое разложение является, однако, правомерным потому. что мы интересуемся здесь воспроизведением функция в ограниченном интервале изменения величины a (от 0 до aмакс), за пределами которого эта функция может быть какой угодно, в том числе и четной периодической.

Анализатор косинусного гармонического вокодера содержит в себе схему выделения ОТ. схему выделения постоянной составляющей основанную на выпрямлении сигнала, и устройство для выделения гармоник ряда Фурье A1,...,Ak, которое может быть реализовано различными способами. Считают, что 4-5 гармоник достаточно для того, чтобы синтезированная речь имела практически приемлемое качество звучания (рис. 6).

Синтезатор вокодера содержит обычное устройство возбуждения тоном или шумом, схему для восстановления фазы гармоник (cos(ra)), модуляторы M1,..., Мk осуществляющие умножение соответствующей амплитуды Аr на cos(ra), и сумматор, выполняющий сложение всех компонент формулы разложения. Через усилитель Ус синтезированная речь поступает на речевой выход вокодера. Коэффициент компрессии гармонических вокодеров примерно такой же, что и формантных. Так, например, при 5 гармониках ряда Фурье и постоянной составляющей общее число передаваемых параметров - 8.

Таким образом, при использовании вокодеров можно получит достаточно хорошее сжатие речи. Но к сожалению эта речь будет страдать не натуральностью, поэтому использование этого метода передачи данных и голоса не будет рекомендоваться для комерческого использования, а только для ведения служебных переговоров. Кроме того, использование крайних участков канала ТЧ заставляет использовать достаточно сложные системы для восстановления принятой информации, так как края канала ТЧ, как говорилось выше подвержены значительным амплитудно-частотным искажениям. А это значит, что данная система все еще требует работы и работы...

Литература:

Покровский Н.Б. Телефония. Теория и техника передачи речи. - Ленинград, 1970.
Тим Грин "Голос через IP звучит все лучше", Сети # 9-10/96 стр. 117-118
Александр Крейнес "Как налить море в наперсток? Технологии компрессии голоса", Сети # 9-10/96, стр. 119-121
Барри Филипс "Блюзы говорящих модемов", OEM Magazine, июль 1996 г., с. 14
T.Dellecave "Борьба двух стандартов одновременной передачи речи и данных через модем", ComputerWeek, N28_95 c.9

Выше представлен первоначальный вариант статьи опубликованной в:

Мухин С.В. Одновременная передача данных и голоса через канал тональной частоты//Методы оценки систем и передачи данных//Сб. науч. тр. - М: - 1999. - с. 115 - 121.

Одновременная передача голоса и данных через канал тональной частоты

1997-2014Завтрак связиста

1997-2014
Завтрак связиста