Korektor překlepů

Korektor překlepů v českých slovech je softwarové a lingvistické dílo značného rozsahu. Nejedná se totiž o pouhou shromážděnou rozsáhlou slovní zásobu, ale o dlouhodobě budovaný komplexní popis českého jazyka s možností rozšiřování pro další použití: překladové slovníky, gramatický korektor, automatizovaný překlad.

Korektor překlepů nachází nejčastější využití v textových editorech, DTP systémech, OCR programech i v dalších specializovaných aplikacích, kde je potřeba zkontrolovat správnost textu napsaného v přirozeném jazyce.

Jazyková část

Struktura slovníku je založena na formálním popisu morfologie a na detailním systému vzorů. Tento popis umožňuje z jednoho slovního základu (kmene) generovat až několik desítek odvozených tvarů, např. v českých slovech
milovat: milovat, miluji, miluješ, milujeme, miloval, milovala, milovali, milovaný, milovaná, milovaného, milování, ...
bratr: bratr, bratra, bratru, bratře, bratrem, bratři, bratry, bratrech, bratrova, bratrovo, bratrovy, bratrův, ...

Bohatou slovotvorbu mají především slovanské jazyky, nicméně i v románských mají slovesa množství různých tvarů, např. ve francouzštině
parler: parle, parles, parlons, parlez, parlent, parlais, parlait, parlions, parliez, parlaient, parlerai, parlé, parlant, ...

V ruštině je zase potřeba brát v úvahu zvratná zájmena, která se píší s některými tvary dohromady:
женится: женюсь, женишься, женится, женись, женилась, женились, ...
Podobně je tomu i ve španělštině, kde se navíc mohou se slovesem psát i osobní zájmena (poner->ponlo, decir->dime, escuchar->escúchala)

Extrémních rozměrů nabývají tvary v maďarštině, kde se slova tvoří pomocí sufixů. Maďarština rozeznává kromě dvou čísel i 30 pádů a dva druhy přivlastňování (patřící danému objektu a patřící osobě):
ház: házak, házat, háznak, házzal, házig, házé, házéi, házaké, házakéi, házamé, házadé, házáé, ...

Všechna slova, která vytvářejí odvozené tvary shodným způsobem, jsou přiřazena ke stejnému vzoru. Každý korekturní slovník se tedy skládá ze dvou hlavních částí:

  • slovník vzorů: obsahuje lingvistickou informaci o tvoření tvarů, alternacích kořene a popis gramatických kategorií
  • slovník kmenů: obsahuje základní slovní zásobu kmenů většiny slov daného jazyka

Popis slov výše uvedeným způsobem je úplný v tom smyslu, že kromě slov s pravidelným odvozováním postihuje i slova:

  • s alternacemi kořene (např. české pes->psa, německé Bruder->Brüder)
  • s úplnou změnou kmene (např. anglické go->went, německé essen->isst, české hnát->žene)
  • nepravidelná slova (být, jíst, chtít)

Popis je dále natolik obecný, že umožňuje vytvořit slovník nejen pro češtinu a slovenštinu, ale taktéž pro další evropské jazyky. Vypořádá se např. se zvratnými slovesy v ruštině, opisným stupňováním v angličtině či polštině, staženými tvary ve francouzštině, odlučitelnými předponami v němčině, slučováním slovesných tvarů se zájmeny ve španělštině nebo bohatým vytvářením tvarů pomocí sufixů v maďarštině.



Programové řešení

Vzhledem k efektivnímu algoritmu komprimace a celkového generování slovníku je programové rozhraní dosti krátké, a tudíž snadno použitelné v libovolném softwarovém produktu.

Dostupné funkce

  • Ověření, zda je dané slovo ve slovníku. Tato funkce také kontroluje správnost použití velkého písmene na začátku slov, kde je to nutné (Praha, Maria, Eisenhower, ...), velkých písmen v celém slově (USA, IBM) či ukončení slova tečkou (atd., apod.).
  • Nabídnutí oprav. Tato funkce vygeneruje všechna taková slova, ze kterých mohlo dané slovo vzniknout překlepem: vložením libovolného písmene, změnou libovolného písmene na jiné, vynecháním písmene nebo záměnou dvou sousedících písmen.
  • Obsluha uživatelských slovníků či speciálních slovníků pro automatickou záměnu chybných slov.
  • Nastavení parametrů, např. ignorování akronymů, jednopísmenných slov, slov s číslicemi apod.

V současnosti nabízíme kontrolu překlepů pro širokou škálu jazyků (viz tabulka). Implementována je rovněž na většině platforem (viz přehled).

Reference

Funkčnost a rychlost našeho řešení si můžete ověřit např. v programech Microsoft Office od verze Office 95 výše. Náš korektor pravopisu dále využívají textový editor firmy Software602, dříve oblíbený Corel WordPerfect, sázecí systém Adobe PageMaker, OCR programy, redakční systémy (např. MF Dnes) a další.