Microsoft se pochlubil nejlepším rozpoznáváním lidské řeči s nejnižší chybovostí v historii

Rozpoznávání lidské řeči pomocí počítačových systémů se v poslední době velmi rychle zlepšuje hlavně díky použití hlubokých neuronových sítí v kombinaci s velkým množstvím dat. Microsoft se pochlubil, že jeho systém rozpoznání řeči má nejnižší chybovost ze všech.

Na oficiálním blogu Microsoftu jsou k dispozici i konkrétní výsledky testů, které se používají jako měřící standard schopnosti systému rozpoznat lidskou řeč.

V rámci chybovosti (WER – word error rate) se Microsoft pyšní pouze 6,3 %, což je dle tvrzení zatím nejnižší hodnota, která byla při těchto testech dosažena. IBM nedávno představilo vlastní systém, který má chybovost 6,6 %, což je velmi blízko.

Klepněte pro větší obrázek
Vývoj chybovosti v průběhu historie (Zdroj: Microsoft)

Jak je vidět na obrázku, pokrok v této oblasti oproti minulosti je značný – chybovost před dvaceti lety byla 43 %, což je pochopitelně i značně nepoužitelné pro reálné nasazení, když polovina slov není správně rozpoznaná.

Inženýři mohou nyní cvičit systémy umělé inteligence velmi rychle a mnohem přesněji. Cílem je posunout schopnosti rozpoznávání lidské řeči na stejnou nebo lepší úroveň, než kterou má i sám člověk.

Aby ale bylo možné dosáhnout perfektního rozpoznávání řeči třeba u Cortany, Siri, Alexy a dalších hlasových systémů, je nutné počítat se zahrnutím i dalších dat, které se netýkají samotného hlasu. Aby bylo možné rozpoznat vyšší úrovně, je nutné chápat větší souvislosti a vědět co nejvíce informací o samotném uživateli jak v reálném čase, tak i z pohledu minulosti a budoucnosti.

Microsoft v tomto směru již dříve představil Caap (Conversation as a Platform), který se skládá právě z těchto částí nejen u chytrých asistentek, ale i chytrých chatbotů a podobně.

Díky tomu, že všichni hlavní technologičtí hráči jako Microsoft, IBM, Apple nebo Google vyvíjí systémy na bázi hlubokých neuronových sítí, konkurenční předností je co největší množství dat a rychlost, se kterou se umělá inteligence učí vše rozpoznávat.

Z pohledu celosvětového nasazení pro různé jazyky má jistě nejvíce navrch hlavně Google, který si pro rychlé a efektivní zpracování dat vytvořil i vlastní hardware v podobě procesoru TensorFlow.

Zdroj obrázku: Flickr (CC BY-SA 2.0)

Témata článku: Mobilní aplikace, Technologie, Microsoft, Umělá inteligence

4 komentářů

Nejnovější komentáře

  • Jan Lavicka 4. 10. 2016 7:20:07
    Jistě, Microsoft dělá vědu a ne PR :-D Tomu dnes věří už jen Microsoft...
  • MajklIks 2. 10. 2016 15:05:16
    Celkem by mě zajímala chybovost u konkurence (Apple či Google).
  • Mokashi 1. 10. 2016 20:54:03
    no uz by to hlavne měli naucit mluvit cesky
Určitě si přečtěte

Začněte používat hlasové funkce Google Now. Tady je 24 ukázek pro inspiraci

Začněte používat hlasové funkce Google Now. Tady je 24 ukázek pro inspiraci

** Hlasoví asistenti nejsou vidět, uživatelé do nich obtížně pronikají ** Ještě to není ta umělá inteligence z tiskových konferencí, ale už dnes usnadní život ** Tady je pár tipů, kterými můžete začít, třeba se vám zalíbí mluvit na své mobily

2.  12.  2016 | Kůžel Filip, Polesný David | 9

Vybrali jsme 11 nejlepších levných smartphonů do 5 tisíc. Který si nadělíte?

Vybrali jsme 11 nejlepších levných smartphonů do 5 tisíc. Který si nadělíte?

** I když je cena limitem, dá se vybrat rozumný smartphone ** Levný smartphone umí víc než obyčejný mobil ** Připravte si minimálně 2 tisíce korun

1.  12.  2016 | Láska Jan | 12