Microsoft se pochlubil nejlepším rozpoznáváním lidské řeči s nejnižší chybovostí v historii

Microsoft se pochlubil nejlepším rozpoznáváním lidské řeči s nejnižší chybovostí v historii

Rozpoznávání lidské řeči pomocí počítačových systémů se v poslední době velmi rychle zlepšuje hlavně díky použití hlubokých neuronových sítí v kombinaci s velkým množstvím dat. Microsoft se pochlubil, že jeho systém rozpoznání řeči má nejnižší chybovost ze všech.

Na oficiálním blogu Microsoftu jsou k dispozici i konkrétní výsledky testů, které se používají jako měřící standard schopnosti systému rozpoznat lidskou řeč.

V rámci chybovosti (WER – word error rate) se Microsoft pyšní pouze 6,3 %, což je dle tvrzení zatím nejnižší hodnota, která byla při těchto testech dosažena. IBM nedávno představilo vlastní systém, který má chybovost 6,6 %, což je velmi blízko.

Klepněte pro větší obrázek
Vývoj chybovosti v průběhu historie (Zdroj: Microsoft)

Jak je vidět na obrázku, pokrok v této oblasti oproti minulosti je značný – chybovost před dvaceti lety byla 43 %, což je pochopitelně i značně nepoužitelné pro reálné nasazení, když polovina slov není správně rozpoznaná.

Inženýři mohou nyní cvičit systémy umělé inteligence velmi rychle a mnohem přesněji. Cílem je posunout schopnosti rozpoznávání lidské řeči na stejnou nebo lepší úroveň, než kterou má i sám člověk.

Aby ale bylo možné dosáhnout perfektního rozpoznávání řeči třeba u Cortany, Siri, Alexy a dalších hlasových systémů, je nutné počítat se zahrnutím i dalších dat, které se netýkají samotného hlasu. Aby bylo možné rozpoznat vyšší úrovně, je nutné chápat větší souvislosti a vědět co nejvíce informací o samotném uživateli jak v reálném čase, tak i z pohledu minulosti a budoucnosti.

Microsoft v tomto směru již dříve představil Caap (Conversation as a Platform), který se skládá právě z těchto částí nejen u chytrých asistentek, ale i chytrých chatbotů a podobně.

Díky tomu, že všichni hlavní technologičtí hráči jako Microsoft, IBM, Apple nebo Google vyvíjí systémy na bázi hlubokých neuronových sítí, konkurenční předností je co největší množství dat a rychlost, se kterou se umělá inteligence učí vše rozpoznávat.

Z pohledu celosvětového nasazení pro různé jazyky má jistě nejvíce navrch hlavně Google, který si pro rychlé a efektivní zpracování dat vytvořil i vlastní hardware v podobě procesoru TensorFlow.

Zdroj obrázku: Flickr (CC BY-SA 2.0)

Diskuze (4) | Apple kopíruje Samsung Note 7. iPhone 7 Plus vybouchnul ještě v krabičce při transportu [galerie]

Témata článku: Microsoft, Mobilní aplikace, Technologie, Umělá inteligence, Chytrý asistent, Řeč, Rozpoznávání, Nejnižší hodnota

Určitě si přečtěte

ČD aktualizovaly aplikaci, In karta může konečně do mobilu. Vytvoříte ji zdarma

ČD aktualizovaly aplikaci, In karta může konečně do mobilu. Vytvoříte ji zdarma

** Stojíte o In kartu, ale nikdy se vám nechtělo ji složitě vyřizovat? ** S aplikací Můj Vlak je to snadné, fyzicky už kartu potřebovat nebudete ** 25% sleva na tři roky vyjde na necelou tisícovku, pro mladé 490 Kč

Včera | Pospíšil Aleš | 15

Týden mobilně 417: Fotografická kouzla Google Pixelu a to nejlepší z veletrhu CES

Týden mobilně 417: Fotografická kouzla Google Pixelu a to nejlepší z veletrhu CES

14.  1.  2018 | Holčík Tomáš, Kůžel Filip, Láska Jan | 3

T-Mobile chystá miliardové investice do optických sítí

T-Mobile chystá miliardové investice do optických sítí

13.  1.  2018 | E15.cz , Gallistl Vladan | 11