Zpracování hlasu v mobilu: když se řekne haló haló

Zamysleli jste se někdy nad tím, co se vlastně děje s vaším hlasem, když hovoříte do mobilního tlefonu? Co všechno s řečí provádí mobilní stanice před vysláním směrem k cíli se dozvíte v tomto článku.
Zpracování hlasu v mobilu: když se řekne haló haló

Jeden vzorek, druhý vzorek

Mikrofon mobilního telefonu je v principu převodník akustické energie na energii elektrickou, která je v tomto případě reprezentována střídavým elektrickým signálem. Vzhledem k tomu, že systém GSM má digitální charakter, je třeba lidský hlas, který se má přenést mezi dvěma zařízeními v síti, nejprve převést do digitální podoby. Alfou a omegou převodu analogového signálu do digitální podoby je vzorkování a následné kvantování. To je proces, při kterém se v pravidelných intervalech odebírají vzorky analogového signálu a ty se pak podle své úrovně pomocí pevně daného počtu bitů (bitové hloubky) zakódují.

Jednotlivé vzorky řečového signálu v podobě skupinek bitů se pak řadí za sebe a vytvářejí bitový tok. U systému GSM, stejně jako u jiných digitálních telekomunikačních systémů, se řečový signál vzorkuje s kmitočtem 8 kHz. Tedy každou sekundu řeči se odebírá osm tisíc vzorků. Jen pro doplnění – lidský hlas leží ve frekvenčním pásmu zhruba 300 Hz až 3 400 Hz. Každý ze získaných vzorků řeči se vyjádří pomocí třinácti bitů (kombinace třinácti jedniček a nul) a vznikne tak bitový tok 13 x 8 kHz = 104 kbit/s. Po vzorkování je signál segmentován do úseků dlouhých 20 ms, což představuje 160 vzorků.

Takto digitalizovaný hlas je ale ještě pro přenos málo vhodný, neboť obsahuje mnoho nadbytečných informací, které nejsou pro porozumění řeči nezbytné, a zabíraly by vzácnou kapacitu přenosového kanálu. Proto je třeba pomocí vhodného kódování tyto nadbytečné informace potlačit.

Jak se vybíralo kódování

Při počátečním výběru typu zdrojového kódování pro použití v GSM bylo ve hře celkem dvacet návrhů z devíti zemí Evropy. Do posledního výběrového kola postoupily čtyři návrhy, které nejlépe vyhověly požadavkům na kvalitu výsledného zakódovaného hovorového signálu a byly na tom také nejlépe pokud jde o schopnost transkódování. Testování kódovacích algoritmů se provádělo pro těchto sedm jazyků: angličtina, němčina, francouzština, finština, japonština, španělština a hindština. Testy probíhaly také pro tři různé úrovně signálu, různou přednastavenou bitovou chybovost BER (Bit Error Rate), což je poměr špatně přenesených bitů k celkovému počtu všech bitů, a také se zkoumal vliv šumového prostředí.

V následující tabulce jsou uvedeny zmíněné čtyři metody kódování hlasu s uvedením hlavních parametrů a s celkovým hodnocením MOS. Hodnotící parametr MOS (z anglického Mean Option Score) se pohybuje v rozmezí 1 až 5 a vyjadřuje kvalitu hovorového signálu podle této stupnice: 5 – vynikající, 4 – dobrá, 3 – přijatelná, 2 – špatná, 1– nepřijatelná.

Kodeky pro systém GSM
Typ kódování MOS Přenosová rychlost Počet mat. operací Výrobce
RPE - LPC 3,54 14,77 kbit/s 1,5 mil/s Philips (Německo)
MPE - LTP 3,27 13,20 kbit/s 4,9 mil/s IBM (Francie)
SBC - APCM 3,14 13,00 kbit/s 4,9 mil/s Ellemtel (Švédsko)
SBC - ADPCM 2,92 15,00 kbit/s 4,9 mil/s Telecom Research (V. Británie)

Výsledkem byla nakonec kombinace řešení od firmy Philips a IBM. Vznikl tak kodek (zkratka slov kodér - dekodér) s označením RPE - LTP (Regular Pulse Excitation – Long Term Prediction). Obvody kodéru a dekodéru jsou ralizovány signálovými procesory a lze je podle funkce rozdělit na tyto hlavní bloky:

  • předzpracování signálu,
  • analýza LPC,
  • krátkodobá analýza a filtrace,
  • kódování RPE a analýza LTP.

A jdeme na to

Postup kódování RPE - LTP si nyní popíšme podrobněji. Na vstup kodeku tedy přichází digitalizovaný hlasový signál o rychlosti 104 kbit/s. V prvním z bloků dochází k předzpracování signálu. To spočívá v odstranění stejnosměrné složky signálu a zvýraznění méně silných vyšších frekvenčních složek signálu (tzv. preemfáze). Následná analýza LPC pak produkuje osm filtračních koeficientů. 

V bloku krátkodobé analýzy a filtrace prochází blok 160 bitů filtrem, který je v podstatě jakýmsi digitálním modelem lidského hlasového traktu. Parametry speciálního filtru modelují vliv částí lidského traktu, jako jsou zuby, jazyk nebo hltan, na charakter řečového signálu.

V posledním bloku analýzy RPE –LTP je úsek160 bitů rozdělen na čtyři bloky po 40 vzorcích. Do bloků jsou vzorky odebírány vždy po jednom. Tedy v prvním bloku budou vzorky s pořadovými čísly 1, 5, 9, 13 až 157 atd., ve druhém bloku s čísly 2, 6, 10, 14 až 158 a podobně. Z těchto bloků je vybrán ten, který obsahuje vzorky s největším signálem. Z tohoto bloku se vypočítá celkem 47 bitů tzv. excitačního signálu. Pomocí excitačního signálu se pak LTP analýzou získá 9 bitů, které vyjadřují koeficienty LTP. Protože byl prop výpočet excitačního signálu vybrán jen jeden ze čtyř bloků, je třeba pro zachování délky intervalu 20 ms tento signál za sebou čtyřikrát zopakovat.

Celková bitová rychlost signálu se tedy po analýze RPE – LTP změní z původní rychlosti 104 kbit/s takto: 4 x 47 bitů = 188 bitů excitačního signálu, 4 x 9 bitů = 36 bitů koeficientů LTP analýzy a 36 bitů LPC analýzy.

Celkem tedy vznikne 260 bitů z původních 2080 bitů na každých 20 ms řečového signálu. Přepočítáno na bitovou rychlost je to 13 kbit/s z původních 104 kbit/s, což představuje osminásobnou redukci přenosové rychlosti.

Co s tím dál

Předchozí operace se souhrně nazývají zdrojové kódování. Dále se provádí takzvané kanálové kódování, což je v podstatě zabezpečení signálu proti chybám, které mohou vzniknout při přenosu informace. Pro zpětnou rekonstrukci přeneseného signálu na přijímací straně jsou z celkového počtu 260 bitů (pro úsek 20 ms řeči) některé bity důležité a jiné méně. Proto se zabezpečují proti vzniku chyb s různou robustností. Zabezpečení se prakticky provede podle různých systémů přidáním dalších zabezpečovacích bitů ke stávající sekvenci. Výsledkem kanálového kódování je tedy mírné zvýšení přenosové rychlosti. U GSM je to konkrétně na 22,8 kbit/s.

Po kanálovém kódování se provádějí ještě další operace k zabezpečení přenosu, jako je prokládání. To je přísně systematické rozhazování bitů do různých skupin, kterého cílem je zamezit vzniku shluků chyb. Konečně pak přicházejí na řadu závěrečné modulace signálu na nosnou vlnu.

V přijímači probíhají v principu všechny procesy v opačném pořadí. Tedy zjednodušeně řečeno nejprve přijde demodulace, pak zpětné seřazení bitů, obnovení hlasového signálu a nakonec zpětný převod digitální formy na analogovou.

Témata článku: Ostatní

10 komentářů

Nejnovější komentáře

  • kochi 27. 7. 2004 17:00:32

    Nema chybu. Mozna pro nekoho nezajimavy clanek, ale ja ho ocenuji a...

  • honza 26. 7. 2004 17:47:21
  • LK 26. 7. 2004 12:53:46
    Doufám, že takových bude víc a víc!

komerční sdělení

Komerční sdělení