Kodeky v mobilech: aby se hlas mohl přenášet

Kodeky jsou jedním z hlavních činitelů, které ovlivňují kvalitu řečového signálu. Každé zařízení, které pracuje s digitalizovaným hlasem kodek má. Jak je to ale s kodeky v síti GSM a jaké jsou jejich vlastnosti?

Nejprve obecněji

Pro mnohé z vás je pojem kodek dobře známá a jasná věc. Ale přesto si dovolím s ohledem na méně znalé čtenáře stručný úvod. Pojem kodek je foneticky přepsaným sloučením anglických slov Coder a Decoder. V angličtině tedy hledejte pojem codec. Termín označuje zařízení, dnes již téměř vždy softwarově řešené, které má za úkol kódování analogového signálu do digitální podoby a také proces opačný, tedy dekódování digitální reprezentace signálu zpět na podobu analogovou. Kodeky mohou obecně vzato zpracovávat analogové signály všeho druhu. Je mnoho speciálních kodeků pro zpracování videa nebo zvukových nahrávek. Nás ale budou zajímat především ty kodeky, které jsou určeny a také uzpůsobeny pro zpracování signálů řečových.

I mezi kodeky, které jsou určeny pro zpracování řeči, najdeme mnoho různých typů, z nichž každý je navržen pro specifickou aplikaci. Obecně jsou totiž na kodeky kladeny dva protichůdné požadavky. Prvním je logicky pokud možno co nejlepší kvalita výsledného signálu, která se posuzuje, zjednodušeně řečeno, mírou podobnosti kódované řeči originálu. Jenže vyšší kvalita a větší věrnost kódované řeči je obvykle vykoupena větším množstvím dat, která po kódování z kodeku vystupují. A to právě překáží dalšímu významnému požadavku, kterým je minimální výsledný objem dat. Signál se do digitální podoby kóduje proto, abychom jej mohli nějakým způsobem uchovat nebo efektivně přenášet. A zde je právě důležitý co nejnižší objem kódovaných dat. Každý kodek je proto kompromisem mezi těmito požadavky a podle použití se vždy přiklání na tu kterou stranu. Čím je pak kodek kvalitnější, tím blíže se dostává ke společnému splnění obou požadavků.

V mobilních sítích je nárok na objem přenášených dat velmi důležitý, neboť mobilní sítě poskytují ve srovnání s řadou pevných sítí malou šířku pásma, kterou navíc nelze příliš zvyšovat. Kvalita hlasu je zde sice také důležitá, ale v tomto ohledu měli tvůrci kodeků pro mobilní sítě poněkud volnější ruku, protože řeč sama o sobě poskytuje mnoho redundantních informací a je srozumitelná i při velmi špatné kvalitě.

Začalo to s FR

Základním kodekem, který se používá v GSM pro digitalizaci a kódování hlasu prakticky od počátku, je kodek označovaný jako FR (Full Rate). Tento kodek je založen na technologii RPE-LTP (Regular Pulse Excitation - Long Term Prediction), o níž jsme psali podrobněji v tomto článku a nebudeme se jí tedy podrobněji zabývat. Připomeňme si jen, že 20 ms řečového signálu je reprezentováno sto šedesáti třináctibitovými vzorky. Výsledná přenosová rychlost je 13 kbit/s plus 9,8 kbit/s na korekci chyb.
 
S vývojem mikročipů v mobilních telefonech, které dokázaly zvládnout stále náročnější aplikace, postupem času došel tento kodek k vylepšení, které se označuje jako EFR (Enhanced Full Rate). Je na rozdíl od FR založen na metodě ACELP (Algebraic Code Excitation Linear Prediction), která se v mnohém podobá metodě RPE-LTP, ale používá jiný způsob výpočtu koeficientů řečového signálu. Kodek zlepšuje kvalitu hovorového signálu při zachování stejné šířky pásma hovorového signálu. Vylepšení kodeku EFR dostalo kvalitu hlasu na opravdu vysokou úroveň.

Na kodek FR také navázal co do vývoje kodek HR. Ten se však na rozdíl od kodeku EFR vydal jinou cestou. Nabízel zlepšení v oblasti úspory šířky pásma mobilní sítě. Výsledný datový tok, který je u tohoto kodeku oproti FR poloviční 11,4 kbit/s (6,5 kbit/s hovor plus 4,6 kbit/s korekce), dovoluje do pevného počtu timeslotů vměstnat dvojnásobek hovorových kanálů. Cenou za tuto úsporu je ale rapidně snížená kvalita přenášeného signálu. Kodek je postaven na kódovací metodě VSELP (Vector Sum Excitation Linear Prediction). Tento kodek se však téměř vůbec neujal a dnes se takřka nepoužívá. Operátoři vsadili spíše na kvalitu přenášeného signálu.

Spása v AMR

Nová technologie s označením AMR (Adaptive Multi-Rate) se oficiálně objevila v roce 1998. Myšlenka, která stála u zrodu AMR vychází z kodeku EFR, který ale bude moci měnit přenosové rychlosti. Kodek AMR tedy používá celkem osm různých kodeků, které pracují s těmito rychlostmi: 12,2, 10,2, 7,95, 7,40, 6,70, 5,90, 5,15 a 4,75 kb/s. Automaticky se volí optimální rychlost pro kodek podle toho, jakou šířku pásma právě potřebujeme. Časový segment 20 ms je rozdělen do čtyř dílčích úseků vždy po 5 ms, přičemž pro každý tento dílčí úsek může být použita jiná přenosová rychlost. Kodek AMR tedy může postihovat změny velice pružně.

To je ale jen jedna z výhod, které kodek AMR přinesl. Jednou z dalších je funkce DTX (Discontinuous Transmission), která byla používána již dříve, ale v kodeku AMR je na ni kladen mnohem větší důraz. Jedná se o vlastnost, kdy je vypnut přenos zvuku v případě, kdy jedna z komunikujících stran mlčí. To je při běžném hovoru velmi častá situace a tato funkce tedy nachází velmi výrazné uplatnění. Šetří tak energii baterie, protože vysílací část telefonu nemusí neustále běžet na plný vysílací výkon, a samozřejmě také kapacitu sítě.

S funkcí DTX souvisí funkce VAD (Voice Activity Detection), která dokáže rozlišit úseky délky 20 ms, v nichž je přenášen hovorový signál a v kterých nikoli. V okamžicích, kdy není přenášen hovor, by mělo být na přijímací straně ticho. To by ale mohlo posluchači navozovat dojem přerušení hovoru. To je ošetřeno funkcí Comfort Noise Insertion, která do mezer místo ticha doplní tichý nerušivý šum, který se ale samozřejmě nepřenáší, ale generuje v přijímači. K dalším výhodám kodeku AMR patří vlastnost samoopravy chybně přenesených segmentů řeči, které jsou vždy jednoduše řečeno nahrazeny jiným podobným segmentem. 

Diskuze (11) Další článek: CeBIT: Motorola - co kus, to luxus (přehled)

Témata článku: , MOBI, Nejlepší kvalita, Hlas, Pře, EFR, Jasná věc, Mobil