Rozpoznání jazyka

Možná provozujete server nebo aplikaci, do kterých zadávají texty různí přispěvatelé v různých jazycích. Příspěvků je hodně a smysl mají jenom tehdy, když je bude někdo číst. Implementujete proto vyhledávač, ale brzy zjistíte, že by se vám hodil nástroj, který dovede automaticky rozpoznat, v jakém jazyce je daný článek napsán. A právě zde by vám mohla pomoci komponenta Rozpoznání jazyka.

Jazyková část

Naše firma se již řadu let zabývá vývojem jazykových nástrojů pro velké množství jazyků. Podíváte-li se podrobněji na články o ostatních komponentách, zjistíte, že se zdaleka nejedná o pouhý seznam slov, ale o důsledný popis morfologie. Za dobu, kterou se touto problematikou zabýváme, máme proto dostatek znalostí i potřebných dat k tomu, abychom mohli vyvinout nástroj schopný rozpoznat, ze kterého jazyka slovo pochází.

Programové řešení

Na rozdíl od většiny ostatních nástrojů nepracuje modul Rozpoznání jazyka pouze s jedním slovem, ale s celým úsekem textu. Je to proto, že čím delší text zadáte k vyhodnocení, tím spolehlivěji program určí výchozí jazyk. Uvažte třeba větu Je mine., která je správně česky, slovensky i francouzsky. Ovšem i když nehledáme ukázkový příklad, narazíme i na celkem srozumitelný výrok typu Právníci z ministerstva vypracovali analýzu minulý rok., který může být stále tak dobře česky i slovensky. Jeden odstavec v rozsahu 100 slov by však měl již každopádně stačit.

Dostupné funkce

  • Určení jazyka, ze kterého pochází zadaný text.

Modul pro rozpoznání jazyka umožňuje spolehlivě detekovat všechny jazyky, které nabízíme (viz tabulka). Implementován je rovněž na většině platforem (viz přehled).