Přejít na hlavní obsah

Jazykové inženýrství, počítače a přirozený jazyk

Používáte elektronické slovníky? Nebo vyhledávače na internetu? Hodila by se vám jednoduše fungující internetová příručka českého pravopisu? Pracujete při psaní dokumentů s automatickým korektorem překlepů? Na těchto projektech a v nich vzniklých aplikacích se podílejí výzkumníci z Centra pro zpracování přirozeného jazyka FI MU, které oslavilo deset let od svého založení.

V centru pracují také doktorandi a studenti FI MU, kteří se v rámci specializace „počítačové zpracování přirozeného jazyka“ seznamují s jazykovým inženýrstvím a učí se vytvářet nástroje pro komunikaci mezi počítačem a člověkem v přirozeném jazyce (češtině, ale nejen v ní).

Centrum vzniklo v roce 1997 v rámci Fakulty informatiky Masarykovy univerzity a od té doby se jeho pracovníci věnují algoritmickému popisu přirozeného jazyka (češtiny) a vývoji softwarových nástrojů, které usnadňují lidem použití přirozeného jazyka při práci s počítači. Jde například o nástroje pro automatickou analýzu jazyka na jeho jednotlivých rovinách a také strojový překlad mezi blízkými jazyky, jako jsou třeba slovenština a čeština, nebo už výše uvedený korektor překlepů (pro Open Office). Mezi jinými tu vznikl program Debdict, který umožňuje pracovat se šesti hlavními českými slovníky v elektronické podobě, dvěma encyklopediemi a několika vyhledávači současně (více na webové adrese http://nlp.fi.muni.cz/prohlaseni/).

Analýza češtiny a dalších přirozených jazyků
Počítačově se v centru zpracovávají kromě češtiny i další slovanské jazyky, zejména slovenština, programové nástroje vytvořené v centru se v současnosti používají například pro polštinu, ruštinu, slovinštinu a chorvatštinu.

Samostatným okruhem jsou softwarové nástroje pro tvorbu a správu korpusů (korpusové manažery), tedy souborů, které mohou obsahovat až miliardy slovních tvarů získaných z textů různého typu (noviny, odborné texty, krásná literatura a jiné). Korpusy představují soubory dat umožňujících studovat vlastnosti slov a vět v přirozených kontextech, což však při jejich velkém rozsahu nelze dělat manuálně. Korpusové nástroje vyvinuté v centru patří ke světové špičce a kromě slovanských jazyků se používají třeba pro maďarštinu, irštinu a angličtinu. Používá se jich například v předním světovém akademickém nakladatelství
Oxford University Press.

„V současnosti se mimo jiné věnujeme zdokonalování morfologického analyzátoru rozpoznávajícího tvary českých slov,“ popisuje činnost centra jeho vedoucí docent Karel Pala. Jde o program, který umí sám časovat, skloňovat, umí rozpoznávat libovolné tvary českých slov, určit jednotlivé mluvnické kategorie a vyhledat k danému slovu i nespisovné tvary. Pokrývá morfologii na čtyřech stech tisících kmenech, to je dvojnásobek Slovníku spisovného jazyka českého – největšího českého slovníku obsahujícího asi 192 tisíc hesel. Data získaná takovou analýzou se pak využívají při tvorbě elektronických slovníků, analyzátorů nebo překladačů a v dalších aplikacích. Program bude využívat ve svém vyhledávacím stroji například největší český internetový portál Seznam.cz.

Image
Program Debdict umožňuje pracovat se šesti hlavními českými slovníky v elektronické podobě, dvěma encyklopediemi a několika vyhledávači současně.


Internetová příručka češtiny
V centru vytvářejí i programové vybavení pro Ústav pro jazyk český Akademie věd ČR, který buduje elektronickou jazykovou poradnu. Jazykovědci shromáždí jazyková data, jazykoví inženýři vytvoří webové rozhraní pro vyhledávání sporných jazykových jevů. Příručka bude po dokončení (ke konci letošního roku) k dispozici nejširší laické i odborné veřejnosti v podobě volně přístupného webového rozhraní. Umožní také reagovat na aktuální dotazy i na vývoj jazykových norem. Výchozí česká data se budou pravidelně doplňovat o nové informace.

Dalšími budovanými nástroji jsou syntaktický a sémantický analyzátor pro češtinu, oba jsou primárně určeny pro počítačové porozumění přirozenému jazyku. Samostatně se vyvíjejí specializované lexikální databáze a nástroje pro práci s nimi. „V centru naší pozornosti jsou také sémantické sítě (wordnety), jež mají přímý vztah k sémantickému webu, který, jak doufáme, umožní v blízké budoucnosti inteligentnější vyhledávání na internetu,“ doplňuje docent Pala.


Jazykové inženýrství
Pro počítačové zpracování jazyka se také používá termín jazykové inženýrství, což je nově vznikající pomezní obor, který zčásti patří do oblasti aplikované informatiky a částečně zasahuje do lingvistiky. Cílem je popisovat přirozený jazyk tak, aby byl dostupný počítačům. „Jinými slovy, komunikace mezi člověkem a počítačem je zatím primárně jednocestná. Abychom mohli s počítači pracovat, musíme fakticky znát strukturu programů, musíme vědět, na co a kde máme klikat. Bez této znalosti by nám počítače nebyly příliš užitečné,“ říká doc. Pala z Centra pro zpracování přirozeného jazyka. „Naší snahou je učinit komunikaci mezi člověkem a strojem dvoucestnou. Chceme, aby nejen člověk rozuměl stroji, ale hlavně aby počítače rozuměly člověku podstatně lépe než dosud. To se neobejde bez popisu přirozeného jazyka, který bude pro počítače uchopitelný.“

Hlavní novinky