Dissertationes Series
Dissertationes Series

Horváth Márton

Eltűnt frazémák nyomában.
Automatikus elemző rendszerek keresési módszerei, hatékonysága és felhasználási lehetőségei

A la recherche de phrasèmes perdus.
Méthodes, efficacité et utilité d’analyseurs automatiques


ISBN 978-963-87912-2-1

Important note for users of Mozilla Firefox: Please type your search item into the form; THEN click the cursor of your mouse anywhere outside of the field, e. g. at the top of this page, and submit your query by pressing the ENTER key!


TARTALOM

Bevezetés

1. A nyelvek gépi feldolgozása

      1.1.   Nyelvészet és informatika

      1.2.   A komputációs nyelvészet rövid története

      1.3.   Az automatikus nyelvfeldolgozás alapelvei

            1.3.1.   A nyelvfeldolgozás szakaszai

            1.3.2.   A szöveg a számítógépen

            1.3.3.   A szintenkénti feldolgozás és nehézségei

            1.3.4.   A nyelvek automatikus feldolgozásához szükséges ismeretek

      1.4.   A korpuszannotáció

            1.4.1.   A korpuszok jelentősége és az annotáció alapjai

            1.4.2.   A grammatikai annotáció

            1.4.3.   A szemantikai annotáció

      1.5.   Mögöttes modellek és elméletek.

            1.5.1.   A nyelvfeldolgozás paradigmái

            1.5.2.   Morfológiai modellek

            1.5.3.   Szintaktikai modellek

            1.5.4.   Szemantikai modellek

      1.6.   Az automatikus elemzők

2. Kifejezések keresése

      2.1.   Címkézés és indexelés

      2.2.   A rögzült kifejezések

            2.2.1.   A rögzültség általános áttekintése

            2.2.2.   A rögzültség megközelítései

            2.2.3.   A frazéma meghatározása

      2.3.   A rögzült kifejezések felismerése

3. Automatikus elemző rendszerek

      3.1.   A morfoszintaktikai elemzés

            3.1.1.   Szegmentálás és lemmatizálás

            3.1.2.   Szófajjelölés és kategoriális egyértelműsítés

            3.1.3.   Szintaktikai elemzés

      3.2.   A tartalomelemzés

      3.3.   Az Unitex eszközei és funkciói

            3.3.1.   A szöveg előkészítése és az elektronikus szótárak

            3.3.2.   A lexikongrammatikai táblák

            3.3.3.   Az egyértelműsítés

            3.3.4.   Kifejezések keresése

            3.3.5.   Rögzült kifejezések lokalizációja és annotációja

      3.4.   A web mint korpusz

            3.4.1.   A GlossaNet

            3.4.2.   A Google keresőmotorja

      3.5.   Az Unitex és a Google módszerei és hatékonysága: összegzés

   4. Az automatikus elemzők felhasználásai

      4.1.   Digitális nyelvi eszközök

      4.2.   Terminuskinyerés

      4.3.   Beszédfeldolgozás

            4.3.1.   Beszédfelismerés

            4.3.2.   Beszédszintézis

      4.4.   Írástámogatás

      4.5.   Gépi fordítás

            4.5.1.   A fordítás gépi támogatása

            4.5.2.   A teljesen automatizált gépi fordítás

      4.6.   Illegális tartalmak szűrése

      4.7.   Kutatás, oktatás

Konklúzió

Függelék

Glosszárium

Bibliográfia


Függelékjegyzék

1.1.     A DELA formalizmusát használó szótár

1.2.     Lexikongrammatikai tábla (részlet)

1.3.     Véges állapotú morfológiai automata

1.4.     Véges állapotú automata hurokkal

1.5.     Kétszintű reprezentáció

1.6.     Helyi nyelvtan: véges állapotú automata

1.7.     Önbeágyazás: vonatkozó bővítmények

1.8.     Szemantikai háló

3.1.     Bevett grammatikai kódok

3.2.     Bevett inflexiós kódok

3.3.     Néhány bevett szemantikai kód

3.4.     Mondathatár-meghatározó nyelvtan a francia nyelvhez

3.5.     Egyértelmű alakok normalizációja: hangkivetés

3.6.     A Le Monde 1996-ban felismert egyszerű és összetett,
          ill. fel nem ismert szavak

3.7.     A Le Monde 1996 szóalaklistái (részletek)

3.8.     Lexikongrammatikai tábla gráfokká konvertálása

3.9.     Az Est-il possible de dormir? ‘Lehet aludni?’ mondat többértelműségi gráfja

3.10.   Példa ELAG nyelvtanra

3.11.   A Függelék 3.10.-es nyelvtan alkalmazásának eredménye

3.12.   A speciális szimbólumok vagy meták az Unitexben

3.13.   A kiválasztott rögzült kifejezések és definíciójuk

3.14.   Egyszerű lexikongrammatikai tábla.

3.15.   Egyszerű parametrikus gráf

3.16.   Az Ins gráf

3.17.   A se gráf

3.18.   Keresési eredmények a függelék 3.15.-ös gráfja alapján

3.19.   Lexikongrammatikai táblák

3.20.   Parametrikus gráfok

3.21.   Passzív szerkezetek keresésének eredményei

3.22.   Néhány keresési eredmény: konkordanciák

3.23.   A se laver les mains de qc ‘mossa kezeit’ kifejezés parametrikus gráfja

3.24.   Lexikongrammatikai tábla a frazématorzuláshoz

3.25.   Parametrikus gráf a frazématorzulás észleléséhez

3.26.   Frazématorzulások keresésének eredményei

3.27.   A Google-keresés eredményei

3.28.   Frazématorzulások Google-keresésének eredményei

4.1.     A digitális nyelvi források és alkalmazásaik

4.2.     A számítógép által támogatott fordítási folyamatMára a számítógép mindennapjaink részévé vált, és számos területen nyújt segítséget illetve teszi lehetővé a feladatok könnyebb és kevésbé költséges elvégzését. Több programnak is célja a természetes nyelvek kezelése: nem csupán azért, mert a számítógépnek alkalmaznia kell az emberi nyelvet, hanem azért is, mert a számítógépek egyre nagyobb szerepet vállalnak a kommunikációban és egyre inkább hozzájárulnak a szöveg vagy a beszéd feldolgozásához. A nyelv automatikus kezelésére számtalan szoftver támaszkodik, akár különböző tudományterületeken végzett kutatásokhoz használt, akár a nagyközönség számára is hozzáférhető, más-más funkciókat kínáló programokról legyen is szó.

A természetes nyelvek gépi feldolgozása egy elemző és egy generáló fázist feltételez. Az automatikus elemzéshez szükség van fonetikai, morfológiai, szintaktikai és szemantikai feldolgozásra, és ezeket a feladatokat általában különböző eszközök végzik. Jelenleg számos automatikus elemző rendszer létezik, s ezek sokszor szövegszerkesztést, beszédfelismerést vagy -szintézist, automatikus fordítást, terminus-kinyerést vagy illegális tartalmak szűrését végző alkalmazások részét képezik.

A nyelv feldolgozásának és az automatikus elemző rendszerek alapjainak általános ismertetése után az állandósult szókapcsolatok kezelését, elemzését és felismerését vizsgáljuk meg részletesebben. Ezután két különböző informatikai eszköz, az Unitex és a Google funkcióit, eljárási módszereit és hatékonyságát mutatjuk be. Az Unitex egy olyan korpuszkezelő-rendszer, amelyet elsősorban a nyelvtudományok területén végzett kutatásokhoz használnak míg a Google célja a világhálón való információkeresés lehetővé tétele a nagyközönség számára, különböző technológiák segítségével. A dolgozatot az ezekhez hasonló, többek között nyelvészeti, neológiai, pedagógiai vagy pszichológiai kutatások során, valamint számítógépes vagy beépített informatikai alkalmazásokban használt elemző rendszerek jelentőségének és felhasználásainak vizsgálata zárja.
3. Automatikus elemző rendszerek

3.3.5. Rögzült kifejezéseklokalizációja és annotációja

 

Az Unitex keresési és elemzési hatékonyságának megvizsgálására negyven, a Le Monde 1996 korpuszban lokalizálandó és felcímkézendő frazémát választottunk ki Bárdosi (1997)-ből. A kifejezések a következő kategóriákból kerültek ki: „Az ember viselkedése”, „Az ember kudarchelyzetekben”, „Emberi kapcsolatok”, „Az ember és intellektusa”. A Függelék 3.13. pontja veszi sorra a kiválasztott kifejezéseket és definíciójukat.

Bár a kifejezések nem alkotnak homogén csoportot, létrehoztunk egy egyszerű lexikongrammatikai táblát (ld. Függelék 3.14.) és egy parametrikus gráfot (ld. Függelék 3.15.) a nyelvtanok generálásának megkönnyítésére. A parametrikus gráf tartalmaz egy Ins nevű gráfot (ld. Függelék 3.16), amely az ige és komplementumai közé beilleszthető elemeket tartalmazza: adverbiumokat, közbevetett mondatokat, prepozíciós csoportokat. Ezekből az adatokból a kiválasztott kifejezéseket felismerő nyelvtanokat automatikusan hoztuk létre, s ezekkel egy első, címkézés nélküli keresést hajtottunk végre. A keresés 486 találatot eredményezett (a részletes találatokhoz ld. Függelék 3.18).

Ezek az első nyelvtanok ugyanakkor nem vették figyelembe a kötelező preverbális partikulákat (visszaható névmások), a passzív szerkezet lehetőségét, és az összetett igeidőket, amelyek esetében a rögzült kifejezések egyes elemei „túlságosan eltávolodhatnak” az igétől (cf. Silberztein 2001, p. 167-169). Miután a passzív transzformáció nem minden esetben lehetséges, a lexikongrammatikai táblát egy újabb oszloppal egészítettük ki annak jelzésére, hogy felmerülhet-e a passzív szerkezet érvényessége. Létrehoztunk egy második táblázatot a passzívban is használható és indirekt tárgyi (részes esetű) komplementumot is tartalmazó kifejezések számára, hogy a két komplementum szétválaszthatóvá válhasson. A visszaható igéket tartalmazó kifejezések egy harmadik táblába kerültek, amelyben a :se bemenet a se nevű algráfra utal (ld. Függelék 3.17; a három táblázathoz ld. Függelék 3.19). Végül pedig három új parametrikus gráf is készült (ld. Függelék 3.20). Az első gráf egy esetleges passzív szerkezetről ad számot (a passzív ágat a +szimbólumnak kell érvényesítenie, máskülönben a gráfnak ennek a része törlődik), és figyelembe veszi az aller, venir de, être és avoir segédigékkel létrehozott összetett idejű passzív szerkezeteket is, hogy a la couleur a été soudain annoncée ‘hirtelen színt vallott’ típusú mondatokat is felismerhesse. A második gráf annyiban különbözik az elsőtől, hogy szétválasztja az ige két komplementumát. A harmadik gráf csak a visszaható igéket tartalmazó kifejezéseket kezeli; ebben az esetben a passzív szerkezet nem lehetséges, ellenben tekintetbe kell venni a kötelező igei partikulákat (vö. a @Bcsomópont által jelzett ige elé beillesztett @Acsomópont), és az összetett igeidőket: a Pierre et Marie se sont lavé les mains ‘Pierre és Marie megmosták a kezüket’ típusú mondatokat is lokalizálni kell.

Ezek az új gráfok javítottak a keresés pontosságán: az annoncer la couleur ‘színt vall’ és découvrir le pot aux roses ‘rátalál a dolog nyitjára’ kifejezéseket passzív szerkezetekben is sikerült lokalizálni (ld. Függelék 3.21). Ugyanakkor a harmadik, visszaható igéket tartalmazó kifejezéseknek szánt gráf a keresett kifejezéseket megelőző szavakat is felismerte olykor a kifejezések részeként, tévesen. A se laver les mains ‘mossa kezeit’ esetében az est de se lasser de ces meurtres perpétuels et de ces subventions détournées en se lavant les mains szósor egyetlen kifejezésként jelenik meg. Ez az Ins gráfnak tudható be, mely azokat az elemeket hivatott felismerni, amelyek a kifejezések egyes összetevőit eltávolíthatják egymástól.[56] Habár ez a gráf alkalmas arra, hogy több kifejezés felismerését is lehetővé tegye, túlságosan leegyszerűsített és következésképpen pontatlan (cf. Silberztein 2000, p. 437-439). A segédigék bevonása szintén hozzájárult a fenti hibához: az Ins gráf de prepozícióval bevezetett prepozicionális csoportként ismerte fel mindazt, ami a szósor első szava, azaz az être ‘lenni’ ige est ‘van’ alakja, és a laver ‘mosni’ jelen idejű particípiuma közt volt. Mindezek ellenére a kifejezések egyszerű lokalizálására hasznosnak bizonyulhat az Ins gráf; a felcímkézéshez azonban a gráf pontosabb meghatározására vagy utólagos manuális ellenőrzésre van szükség. Ugyanez igaz az általunk tesztelt egyszerűsített gráf első verziójára: megfelelően lokalizálta a visszaható igéket tartalmazó kifejezéseket, de a címkézésbe nem vonta be a preverbális partikulát. A rögzült kifejezések beazonosításakor ilyen jellegű hiba mindig megeshet, azaz olyan elemek identifikációja, amelyek nem képezik a keresett kifejezés részét. A lokalizált szósorokat ezért kétértelműnek kell tekinteni egy későbbi ellenőrzésig (cf. Silberztein 2000, p. 439).

Még ha a kifejezések lokalizációja hatékony is, a nem idiomatikus előfordulások nem mindig különíthetők el, amint azt már a 2.3. fejezetben is említettük. Előfordulhat, hogy a mettre le couteau sur/sous la gorge à qn. ‘torkának szegezi a kést’, se laver les mains (de qc.) ‘mossa kezeit’, tomber à l’eau ‘kútba esik’, és vider son sac ‘kipakol’ kifejezések kompozicionális jelentésben jelenjenek meg. Miután zsurnalisztikai korpuszról van szó, az idiomatikus értelmezésre nagyobb az esély. A keresési eredmények (ld. Függelék 3.22.) azonban a kifejezések szűk kontextusa alapján azt mutatják, hogy a se laver les mains ‘mossa kezeit’ öt előfordulása (4., 7., 14., 15. és 17. sor), a tomber à l’eau ‘kútba esik’ egy előfordulása (21. sor) és a vider son sac ‘kipakol’ egy előfordulása (33. sor) minden bizonnyal nem idiomatikus olvasatban értelmezendők. A se laver les mains ‘mossa kezeit’ esetében a „de + főnév” komplementum bevonása a keresésbe a bizonytalanságok nagy részét feloldhatja. A Függelék 3.23. pontjában található gráfban két lehetséges ág van: vagy a de prepozíció követi a kifejezést, vagy az en névmás kerül a visszaható névmás és az ige közé. A többi nem egyértelmű kifejezés esetében szemantikai elemzésre lenne szükség az idiomatikus és nem idiomatikus használat megkülönböztetésére (vö. 2.3. és 3.2. fejezet). A tartalomelemzés hiánya ellenére az Unitexben létrehozhatók olyan nyelvtanok, amelyek felismernek bizonyos szavakat a kifejezések környezetében. A mettre le couteau sous la gorge ‘torkának szegezi a kést’, tomber à l’eau ‘kútba esik (szó szerint: vízbe esik)’ és vider son sac ‘kipakol’ kifejezések nem idiomatikus használata esetében valószínűsíthető, hogy azonos szemantikai mezőbe tartozó szavak is megjelennek a kifejezések közelében: tuer ‘ölni’, meurtre ‘gyilkosság’, menace ‘fenyegetés’ stb.; lac ‘tó’, mer ‘tenger’, bateau ‘hajó’, côte ‘tengerpart’, rive ‘folyópart’ stb.; bagages ‘csomag’, valise ‘bőrönd’, vêtement ‘ruha’, affaire ‘holmi’ stb. Természetesen ez sok nehézséggel jár: meg kell határozni a kontextus méretét és a keresendő mintákat.

Az Unitex tehát hatékony a rögzült kifejezések lokalizációjában és felhasználásuk ill. kontextusuk vizsgálatában. A keresés pontosságán kétségtelenül javíthat a kifejezések egyes összetevői közé beilleszthető elemek részletesebb tanulmányozása. Ahhoz, hogy teljes képet kapjunk a rögzültség jelenségéről, érdemes kitérnünk még arra, hogy hogyan segíthet minket az Unitex az elferdített frazeologizmusok beazonosításában. A frazématorzulás egyszerre idéz fel egy idiomatikus jelentést és egy másik, vagy a kifejezésbe bevont új elem, vagy a kifejezés egészének vagy egy részének nem idiomatikus olvasatú jelentését, és így egyfajta paradox, játékos vagy szatirikus kettősséget implikál (cf. Rastier 1997, p. 312). A lexikai szubsztitúció általi ferdítés alkalmas arra, hogy az Unitexben modellálható és így azonosítható legyen. A kifejezések közül kiválasztottuk azokat, amelyekben vagy több komplementuma van az igének, vagy az egyetlen komplementum összetett. Ez lehetővé teszi a lexémacserét anélkül, hogy az idiomatikus jelentés felidézése elveszne. Ismét lexikongrammatikai táblát hoztunk létre (ld. Függelék 3.24). Feltételezvén, hogy a frazématorzulás során mind az ige, mind pedig komplementumai behelyettesíthetők, három ágú parametrikus gráfot készítettünk (ld. Függelék 3.25). Ez a gráf a kifejezések rögzült formáját is felismeri, ezért az első keresések eredményeit ezúttal nem kell figyelembe venni. A gráfok automatikus generálása után manuálisan módosítottuk a chercher une aiguille dans une botte/meule de foin ‘gombostűt keres a szénakazalban’ és a jeter/vider l’enfant/le bébé avec l’eau du bain ‘a fürdővízzel együtt a gyereket is kiönti’ kifejezések gráfjait, hogy az egyszerű de prepozíciót a de algráffal helyettesíthessük, és hogy hozzáadjunk a gráfhoz egy negyedig ágat, ahol a második és a negyedik oszlop elemeit a Subs algráf helyettesíti. E kevéssé összetett módszernek köszönhetően három frazématorzulást találtunk a korpuszban: jeter la passoire avec l’eau des pâtes ‘a tésztafőző vízzel együtt a szűrőt is kiönti’, jeter de l’eau sur le feu ‘vizet önt a tűzre’ és remuer ciel et eau ‘eget-vizet megmozgat’ (ld. Függelék 3.26).

Mindent összevetve az Unitex hatékony eszközegyüttesnek bizonyul a korpuszok morfoszintaktikai elemzése terén. Rugalmassága és az egyéni igényeknek megfelelő új nyelvtanok fejlesztésének lehetősége hozzájárul e hatékonyság növeléséhez. A lexikongram­matikai táblák kezelésének köszönhetően a nyelvtanok generálása automatizálható és a már létező táblák információi egyszerűen felhasználhatók és kiaknázhatók. Az Unitex segítségével tehát nemcsak a meglévő nyelvi forrásokat kihasználva elemezhetjük a korpuszokat, hanem a nyelv működéséről alkotott tudásunkat is bővíthetjük.

 [56]Az est ‘van’ szót, e szósor első elemét a se laver les mains gráf <avoir>+<être>csomópontja ismerte fel, az Ins gráf pedig a de lasser de ces meurtres perpétuels et de ces subventions détournées en szósort egyetlen prepozíciós csoportként értelmezte.


Függelék

Függelék 3.13.

A kiválasztott rögzült kifejezések és definíciójuk.

Bárdosi 1997, p. 62-77,81-83,102-118,126-127 alapján.

Francia rögzült kifejezések Magyar megfelelők
annoncer la couleur színt vall
avoir la dent dure keményen fogalmaz
avoir qc. dans le ventre pezseg a vére; van mersze / bátorsága
chercher midi à quatorze heures a kákán is csomót keres; kukacoskodik / szőröz
chercher une aiguille dans une botte/meule de foin gombostűt keres a szénakazalban
couper l’herbe sous le(s) pied(s) de qn. lepipál / leköröz vkit; elveszi a kenyerét vkinek
découvrir le pot aux roses rátalál a dolog nyitjára
faire d’une pierre deux coups egy csapásra két legyet üt agyon
faire des pieds et des mains minden követ megmozgat; kezét-lábát töri
faire grise mine (à qn.) hűvösen fogad vkit
faire les quatre cents coups rossz fát tesz a tűzre
faire long feu dugába dől; füstbe megy; kútba esik
jeter de la poudre aux yeux (à qn.) port hint a szemébe vkinek
jeter/mettre de l’huile sur le feu olajat önt a tűzre
jeter/vider le bébé/l’enfant avec l’eau du bain a fürdővízzel a gyereket is kiönti
jouer cartes sur table nyílt kártyákkal / lapokkal játszik
marcher sur des Sufs csínján bánik vkivel/vmivel; mintha tojásokon járna / lépkedne
mentir comme un arracheur de dents comme on respire (úgy) hazudik, mint a vízfolyás / mintha könyvből olvasná
mettre la puce à l’oreille à qn. bolhát ültet a fülébe
mettre le couteau sur/sous la gorge à qn. torkának szegezi a kést
mettre les pieds dans le plat ajtóstul ront a házba
mettre les points sur les i tiszta vizet önt a pohárba
ne pas voir plus loin que le bout de son nez nem lát tovább az orránál / az orra hegyénél
passer un savon à qn. megmossa a fejét vkinek
péter le/du feu eleven, mint a csík / a tűz / a kéneső
porter qn. aux nues az egekig / az égig magasztal vkit
prendre le taureau par les cornes bátran / határozottan szembeszáll a nehézségekkel
prendre en main qc. kézbe vesz vmit
prendre son courage à deux mains összeszedi minden bátorságát
promettre la lune / monts et merveilles eget-földet / fűt-fát (meg)ígér
remuer ciel et terre eget-földet megmozgat
retourner sa veste köpönyeget fordít; köpönyegforgató
se creuser la tête töri a fejét
se laver les mains de qc. mossa kezeit
se mettre qn. à dos magára haragít vkit
sécher un cours lóg egy óráról
tomber à l’eau kútba esik
tourner autour du pot kerülgeti, mint macska a forró kását
tuer la poule aux Sufs d’or megöli az aranytojást tojó tyúkot
vider son sac kipakol

 

Függelék 3.17.

Az se gráf.
Silberztein 2001, p. 166 alapján.

gráf

 

Glosszárium


aide à la rédaction írástámogatás
aide à la traduction fordítástámogatás
algorithme algoritmus
alignement de textes szinkronizált szövegpár
alphabet alfabéta, ábécé
analyse syntaxique de surface → analyse syntaxique partielle
analyse syntaxique partielle részleges mondatelemzés, felszíni mondatelemzés
analyseur elemző
analyseur morphologique → étiqueteur
analyseur syntaxique → parseur
application embarquée beépített alkalmazás
arroseur → spammeur
auto-emboîtement → auto-enchâssement
auto-enchâssement önbeágyazás
automate automata
automate á états finis véges állapotú automata
automate à pile de mémoire veremautomata
automate déterministe determinisztikus automata
automate non-déterministe nemdeterminisztikus automata
balisage → étiquetage
balise → étiquette
browser → navigateur
cache gyorsítótár, ideiglenesen letöltött állomány
caractère karakter
chunking → analyse syntaxique partielle
commande vocale hangirányítás
compilation kompilálás, összeszerkesztés, összeállítás
concordance konkordancia
concordanceur konkordancia-program
concordancier → concordanceur
configuration konfiguráció
consistance konzisztencia
contexte szövegkörnyezet
contrainte megszorítás
convivial felhasználóbarát
corpus korpusz
corpus annoté annotált korpusz
corpus arboré szintaktikailag annotált korpusz, treebank
corpus d'entraînement tanuló korpusz
corpus de référence → corpus d'entraînement
corpus de test tesztkorpusz
corpus parallèle párhuzamos korpusz
correction → vérification
coupure automatique des mots automatikus elválasztás
défigement frazématorzulás
dépendant du contexte környezetfüggő
désambïguďsation egyértelműsítés
dictée vocale diktálás funkció
dictionnaire des synonymes szinonimaszótár
dictionnaire électronique elektronikus szótár, számítógépes szótár
distribution libre → open source
étiquetage catégoriel szófajjelölés
étiqueteur morfológiai elemző, szófajkód-megjelölő program
étiquette jel, címkézett zárójel, címke
étoile de Kleene Kleene csillag
expression figée állandósult szókapcsolat
expression idiomatique → expression figée
expression rationnelle reguláris kifejezés, szabályos kifejezés
expression régulière → expression rationnelle
extraction terminologique terminus-kinyerés
format formátum
fréquence gyakoriság
grammaire nyelvtan
grammaire locale helyi nyelvtan
graphe gráf
graphe paramétré parametrikus gráf
inconsistance inkonzisztencia
indépendant du contexte környezetfüggetlen
indexation indexelés
ingénierie des langues nyelvtechnológia
langage contrôlé kontrollált nyelv
langage de balisage jelölőnyelv
langage de programmation programnyelv
langage formel formális nyelv, formanyelv
langage simplifié → langage contrôlé
langue naturelle természetes nyelv
lemmatisation szótő-előállítás, szótő-visszaállítás, lemmatizálás
lemmatiseur lemmatizáló program
lemme → unité lexicale
lexique lexikon, szótár, morfématár
lexique-grammaire lexikongrammatika
linguistique computationnelle számítástechnikai nyelvészet, számítógépes nyelvészet
locution figée → expression figée
logiciel szoftver, program
logiciel d'alignement szövegpár-szinkronizáló rendszer
logiciel de terminologie terminológiakezelő rendszer
machine de Turing Turing-gép
mémoire de traduction fordítómemória
méta → symbole spécial
morphologie à deux niveaux kétszintes morfológia
mot vide üres szó
moteur de recherche keresőgép
navigateur böngésző, webböngésző
nSud csomópont
open source nyílt forráskód
opérateur ET VAGY művelet
opérateur OU ÉS művelet
parseur szintaktikai elemző, mondatelemző
part-of-speech tagger → étiqueteur
phrasème frazéma, frazeologizmus
pondéré súlyozott
pourriel → spam
probabiliste statisztikai, valószínűségi
proximité közelség
recherche keresés
reconnaissance de la parole beszédfelismerés
régulier reguláris
réseau sémantique szemantikai háló
résumé automatique tartalomkivonatolás, kivonatkészítés
segmentation szegmentálás
sortie kimenet
spam spam, levélszemét
spammeur spammer
standardiste automatique automata telefonközpont, automata kezelő
statistique → probabiliste
symbole spécial speciális szimbólum
syntaxe partielle parciális szintaxis
synthése de la parole beszédszintézis
systéme d’apprentissage tanuló rendszer
systéme de prétraduction előfordító rendszer
tag → étiquette
tagger → étiqueteur
terme terminus
terminologie terminológia
texte cible célszöveg
texte source forrásszöveg
texte source annoté annotált forrásszöveg, kiszótárazott forrásszöveg
textes alignés → alignement de textes
thésaurus tezaurusz
traduction assistée par ordinateur fordítás gépi támogatása
traduction automatique gépi fordítás, automatikus fordítás
traduction rapide gyorsfordítás
traitement de texte szövegszerkesztés
transducteur fordító automata
unité lexicale szóalak, lemma
unité terminologique → terme
vérification grammaticale nyelvhelyesség-ellenőrzés
vérification orthographique helyesírás-ellenőrzés
Bibliográfia


Abeillé, A. (1993): Les nouvelles syntaxes, Paris, Armand Colin, 1993.

Abeillé, A. (2002): Une grammaire électronique du français, Paris, CNRS éditions, 2002.

Abeillé, A.; Clément, L.; Kinyon, A. (2001a): «Building a Treebank for French», in: Abeillé, A. (éd.): Treebank: Building and using syntactically annotated corpora, Kluwer Academic Publishers.

Abeillé, A.; Clément, L.; Kinyon, A.; Toussenel, F. (2001b): «Un corpus français arboré: quelques interrogations», TALN 2001, Tours, 2-5 juillet 2001.

Abney, S. (1996): «Statistical Methods and Linguistics», in: Klavans, J.; Resnik, P. (éds.): The Balancing Act, Cambridge, MIT Press.

Anscombre, J.-C. (1994): «Proverbes et formes proverbiales: valeur évidentielle et argumentative», Langue française 102, p. 95-107.

Bach, I. (2002): Formális nyelvek, Budapest, Typotex Kiadó, 2002.

Barbier, M.-L.; Piolat, A.; Roussey, J.-Y. (1998): «Effet du traitement de texte et des correcteurs sur la maîtrise de l’orthographe et de la grammaire en Langue seconde», Revue Française de Pédagogie, no 122, janvier-février-mars 1998, p. 83-98.

Bárdosi, V. (1997): Francia-magyar szólásszótár. Tematikus gyűjtemény és gyakorlókönyv. 1000 locutions françaises et leurs équivalents hongrois, Budapest, Corvina.

Bennett, P. (1995): A course in generalized phrase structure grammar, London, UCL Press in association with the Centre for Computational Linguistics, 1995.

Blache, P.; Morin, J.-Y. (2003): «Une grille d’évaluation pour les analyseurs syntaxiques», TALN 2003, Batz-sur-Mer, 11-14 juin 2003.

Blanc, O.; Constant, M.; Sastre, J. (2005): «Les ressources lexicales du LADL: leur utilisation dans un contexte d’analyse syntaxique», Journée ATALA: Interface lexique-grammaire et lexiques syntaxiques et sémantiques, Paris, 12 mars 2005.

Brill, E. (1995): «Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging», Computational Linguistics, Vol. 21, no 4.

Calishain, T.; Dornfest, R. (2003): Google à 200%, Paris, Éditions O’Reilly, 2003.

Campione, E.; Véronis, J.; Deulofeu, J. (2005): «The French corpus», in: Cresti, E. & Moneglia, M. (éds.): C-ORAL-ROM, Integrated Reference Technology (Interspeech 2005), Lisbonne.

Chanod, J.-P.; Tapanainen, P. (1995): «Tagging French – comparing a statistical and a constraint-based method», Proceedings of the Seventh Conference of the European Chapter of the Association for Computational Linguistics, Dublin, p. 149-156.

Chion, P. (1994): L’informatique, Périscope, Editions P.E.M.F., 1994.

Chomsky, N. (1957): Syntactic structures, The Hague, Mouton & Co. Traduction française: Structures syntaxiques, Paris, Editions du Seuil, 1969. Traduction hongroise: Mondattani szerkezetek – Nyelv és elme, Budapest, Osiris – Századvég, 1995.

Chomsky, N. (1965): Aspects of the Theory of Syntax, Cambridge, Mass., MIT Press.

Chomsky, N. (1981): Lectures on Government and Binding, Dordrecht, Foris Publications.

Chomsky, N. (1995): The Minimalist Program, Cambridge, Mass., MIT Press.

Coulombe, C.; Doll, F.; Drouin, P. (2005): «Intégration d’un analyseur syntaxique à large couverture dans un outil de langage contrôlé en français», Linguisticæ Investigationes, Vol. 28, no 1, p. 19-36.

Daille, B.; Romary, L. (2001): «Traitement automatiques des langues et linguistique de corpus – Nouveaux corpus, nouvelles pratiques, nouveaux concepts», TAL 2001, Vol. 42, no 2.

Dalrymple, M. (2001): Lexical functional grammar, San Diego, Academic Press, 2001.

Danieli, M.; Gerbino, E.; Moisa, L. M. (1997): «Dialogue Strategies for Improving the Usability of Telephone Human-Machine Communication», Interactive Spoken Dialog Systems: Bringing Speech and NLP Together in Real Applications, Universidad Nacional de Educación a Distancia, Madrid, Spain.

Dias, G.; Carapinha, L.; Trindade, R.; Mota, S.; Ribeiro, M.; Dias, J. (2003): «Constuire et accéder à une base de données d’expressions figées à partir des ressources de la Toile», Conférence TIA-2003, Strasbourg, 31 mars et 1er avril 2003.

É. Kiss, K. (2002): «Mi legyen a magyar nyelvészet Széchenyi-programja?», Magyar Tudomány, 2002/2, Magyar Tudományos Akadémia.

Encyclopædia Universalis, dvd-rom, Encyclopædia Universalis France S.A., 2003.

Fairon, C. (1999): «GlossaNet: Parsing a web site as a corpus», Linguisticæ Investigationes, Vol. 22, p. 327-340.

Frankenberg-Garcia, A. (2005): «Pedagogigal uses of monolingual and parallel concordances», ELT Journal, Vol. 59/3, Oxford University Press, p. 189-198.

Gardent, C.; Guillaume, B.; Falk, I.; Perrier, G. (2005): «Le lexique-grammaire de M. Gross et le traitement automatique des langues», Journée ATALA: Interface lexique-grammaire et lexiques syntaxiques et sémantiques, Paris, 12 mars 2005.

George, N.; Riou, J. (2005): «Internet», la page Web des Tuteurs informatique de l'École Normale supérieure, http://www.tuteurs.ens.fr.

Grice, P. (1997): A társalgás logikája, in: Pléh, Cs.; Síklaki, I.; Terestyéni, T. (éds.): Nyelv – Kommunikáció – Cselekvés, Budapest, Osiris, p. 213-227.

Gross, M. (1984): «Lexicon-Grammar and the Syntactic Analysis of French», Proceedings of Coling84, Stanford University, California, 2-6 juillet 1984.

Gross, M. (1988): «Les limites de la phrase figée», Langages, no 90, p. 7-22.

Habert, B.; Zweigenbaum, P. (2002): «Régler les règles», TAL, Vol. 43, no 3, p. 83-105.

Ibekwe-SanJuan, F. (2004): «Extraction terminologique avec INTEX», in: Muller, C.; Royauté, J.; Silberztein, M. (éds.): INTEX pour la Linguistique et le Traitement Automatique des Langues, Cahiers de la MSH Ledoux, Presses Universitaires de Franche-Comté, 2004, p. 115-140.

Ide, N. (1999): «Methods and Techniques of Processing», in: Frederking, R.; Hovy, E.; Ide, N. (éds.): Multilingual Information Management: Current Levels and Future Abilities, National Science Foundation report.

Ide, N. (2004): «Preparation and Analysis of Linguistic Corpora», in: Schreibman, S.; Siemens, R.; Unsworth, J. (éds.): A Companion to Digital Humanities, Backwell.

Ide, N.; Véronis, J. (1996a): «Présentation de la TEI: Text Encoding Initiative», Cahiers GUTenberg, no 24 (spécial TEI), juin 1996, p. 4-10.

Ide, N.; Véronis, J. (1996b): «Une application de la TEI aux industries de la langue: le Corpus Encoding Standard», Cahiers GUTenberg, no 24 (spécial TEI), juin 1996, p. 166-169.

Ide, N.; Véronis, J. (1998): «Word Sense Disambiguation: The State of the Art», Computational Linguistics, Vol. 24, no 1, p. 1-40.

Ide, N.; Wilks, Y. (2005): «Making Sense About Sense», in: Agirre, E.; Edmonds, P. (éds.): Word Sense Disambiguation: Algorithms and Applications, Kluwer, 2005.

Jurafsky, D.; Martin, J. H. (2004): «Word Classes and Part-of-Speech Tagging», in: Jurafsky, D.; Martin, J. H.: Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition, Prentice Hall, 2004.

Klein, J. R.; Rossari, C. (2003): «Figement et variations en français de Belgique, de France, du Québec et de Suisse», Linguisticæ Investigationes, Vol. 26, no 2, p. 203-214.

Komlósy, A. (2001): A lexikai-funkcionális grammatika mondattanának alapfogalmai, Budapest, Tinta Könyvkiadó, 2001.

Lamiroy, B. (2003): «Les notions linguistiques de figement et de contrainte», Linguisticæ Investigationes, Vol. 26, no 1, p. 1-13.

Laporte, É. (1988): «La reconnaissance des expressions figées lors de l’analyse automatique», Langages, no 90, p. 117-126.

Lefèvre, F.; Gauvain, J.-L.; Lamel, L. (2002): «Développement d’une technologie générique pour la reconnaissance de la parole indépendante de la tâche», XXIVèmes Journées d’Étude sur la Parole, Nancy, 24-27 juin 2002, p. 221-224.

Leiba, B.; Borenstein, N. (2004): «A Multifaceted Approach to Spam Reduction»; Proceedings of the First Conference on Email and Anti-Spam, juillet 2004.

Lété, B.; Sprenger-Charolles, L.; Colé, P. (2004): «MANULEX: A grade-level lexical database from French elementary school readers», Behavior Research Methods, Instruments, & Computers, Vol. 36, no 1, p. 156-166.

Malenfant, J. (2003): Automates et langages, Support de cours, Sciences et Sciences de l’ingénieur, Université de Bretagne Sud.

Mathieu, F.-A.; Surcin, S.; Sedogbo, C. (2001): «Un système de commande vocale multimodale: ThomSpeaker», Technique et science informatiques, Vol. 20, no 3, p. 337-368.

Maurel, F.; Vigouroux, N.; Nespoulous, J.-L. (2001): «Problématiques, enjeux et perspectives de la présentation orale de documents électroniques», Conférence Internationale du Document Électronique (CIDE), 24-26 octobre 2001, Toulouse, Europia Productions, p. 247-263.

Megyesi, B. (1998): Brill’s Rule-Based Part of Speech Tagger for Hungarian, Rapport de recherche Master, Department of Linguistics, Stockholm University, Suède.

Megyesi, B. (2002): «Shallow Parsing with PoS Taggers and Linguistic Knowledge», Journal of Machine Learning Research: Special Issue on Shallow Parsing, JMLR (2), p. 639-558.

Mohri, M. (2001): «Language Processing with Weighted Transducers», TALN 2001, Tours, 2-5 juillet 2001.

Mohri, M.; Pereira, F.; Riley, M. (1996): «Weighted Automata in Text and Speech Processing», Proceedings of the 12th biennial European Conference on Artificial Intelligence (ECAI-96), Workshop on Extended finite state models of language, Budapest, Hongrie.

Monnier, S. (2004): «Créer, tester et vérifier des règles de déductions contextuelles avec Intex», in: Muller, C.; Royauté, J.; Silberztein, M. (éds.): INTEX pour la Linguistique et le Traitement Automatique des Langues, Cahiers de la MSH Ledoux, Presses Universitaires de Franche-Comté, 2004, p. 271-285.

Náray-Szabó, M. (2002): «Quelques remarques sur la définition du phrasème», Revue d’Études Françaises, no 7., p. 71-81.

Nenadić, G. (2004): «Creating Digital Language Resources», Revieuw of the National Centre for Digitisation, Vol. 5, Belgrade, p. 19-30.

Paumier, S. (2004): Unitex 1.2 – Manuel d’utilisation, Université de Marne-la-Vallée, juillet 2004.

Péry-Woodley, M.-P. (1996): «De la linguistique informatique à l’ergonomie linguistique: définir une formation dans le contexte toulousain», TAL, Vol. 37, no 1, p. 65-76.

Polity, Y. (1994): «Vers une ergonomie linguistique», Revue Documentaliste – Sciences de l’information, Vol. 31, no 3, p.135.

Pollard, C. J. (1994): Head-driven phrase structure grammar, Stanford, Chicago, Center for the Study of Language and Information, University of Chicago Press, 1994.

Prószéky, G.; Kis, B. (1999): Számítógéppel – emberi nyelven. Intelligens szövegkezelés számítógéppel, Bicske, SZAK Kiadó, 1999.

Pruvost, J. (2002): Les dictionnaires de langue française, Que sais-je?, Presses Universitaires de France, 2002.

Rabiner, L. R. (1989): «A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition», Proceedings of the IEEE, Vol. 77, no 2, février 1989, p. 257-286.

Rastier, F. (1997): «Défigements sémantiques en contexte», in: Martins-Baltar, M. (éd.): La locution, entre langues et usages, coll. Signes, ENS Editions Fontenay / Saint Cloud, diff. Ophrys, Paris, 1997, p. 305-329.

Roche, E. (1996): «Finite-State Transducers: Parsing Free and Frozen Sentences», ECAI ‘96 Workshop on Extended Finite State Models of Language, Budapest, Hongrie, p. 52-57.

Rousseau, L.-J.; Depecker, L. (1999): «Nouveaux outils pour la néologie (Introduction)», Terminologies nouvelles, no 20, décembre 1999, p. 2-3.

Scherer, K. R.; Johnstone, T.; Sangsue, J. (1998): «L’état émotionnel du locuteur: facteur négligé mais non négligeable pour la technologie de la parole», Actes des XXIIèmes Journées d’Études sur la Parole, Martigny, Suisse, Geneva Studies in Emotion and Communication, Vol. 12, no 4.

Senellart, J. (1998): «Reconnaissance automatique des entrées du lexique-grammaire des phrases figées.» in: Lamiroy, B. (éd.): Le lexique-grammaire. Travaux de Linguistique, Vol. 37, p. 109-127.

Silberztein, M. (2000): «Traitement des expressions figées avec INTEX», Linguisticæ Investigationes, Vol. 22, p. 425-449.

Silberztein, M. (2001): INTEX, Manuel d’utilisation, Université de Franche-Comté.

Thibeault, M. (2004): La catégorisation grammaticale automatique: adaptation du catégoriseur de Brill au français et modification de l’approche. Université Laval, Faculté des Lettres, Maîtrise en linguistique.

Torris, T. (1990): «La grammaire syntagmatique généralisée», in: Miller, P.; Torris, T.: Formalismes syntaxiques pour le traitement automatique du langage naturel, Paris, Hermès, 1990, p. 87-124.

Trón, V. (2001): Fejközpontú frázisstruktúra-nyelvtan, Budapest, Tinta Könyvkiadó, 2001.

Tutin, A. (à paraître): «Modélisation linguistique et annotation des collocations: une application au lexique transdisciplinaire des écrits scientifiques», http://w3.u-grenoble3.fr/tu­tin/Publis/modelisation.pdf.

Vaudry, C. (2002): Composition dynamique d’informations dans le cadre de la communication homme-machine – La problématique de la pertinence dans la CHM, Thèse de Doctorat, Université Montpellier II Sciences et Techniques du Languedoc.

Véronis, J. (2000): «Annotation automatique de corpus: panorama et état de la technique», in: Pierrel, J.-M. (éd.): Ingénierie des langues, Paris, Éditions Hermès, p. 111-129.

Véronis, J. (2001a): «Sense tagging: does it make sense?», Corpus Linguistics’2001 Conference, Lancaster, U.K.

Véronis, J. (2001b): Informatique et Linguistique 1, Unité d’enseignement INF Z18, Centre Informatique pour les Lettres et Sciences Humaines, Université de Provence.

Vinot, R.; Grabar, N.; Valette, M. (2003): «Application d’algorithmes de classification automatique pour la détection des contenus racistes sur l’Internet», TALN 2003, Batz-sur-Mer, 11-14 juillet 2003.

Williams, G. (2005): «Introduction», in: Williams, G. (éd.): La linguistique de corpus, Presses Universitaires de Rennes, 2005.

WEBOLDALAK:

ACL Anthology: A Digital Archive of Research Papers in Computational Linguistics:
http://acl.ldc.upenn.edu/

AltaVista Babel Fish:
http://babelfish.altavista.com/

Association pour le Traitement Automatique des Langues:
http://www.atala.org/

ELDA (Evaluations and Language resources Distribution Agency):
http://www.elda.org/

ELRA (European Language Resources Association):
http://www.elra.info/

Équipe Informatique Linguistique de l’Institut d’électronique et d’informatique Gaspard-Monge de l’Université de Marne-la-Vallée:
http://infolingu.univ-mlv.fr/

EuroWordNet:
http://www.illc.uva.nl/EuroWordNet/

Global WordNet Association:
http://www.globalwordnet.org/

GlossaNet:
http://glossa.fltr.ucl.ac.be/

Google (France):
http://www.google.fr/

INTEX:
http://intex.univ-fcomte.fr/

Laboratoire ATILF (Analyse et Traitement Informatique de la Langue Française):
http://www.atilf.fr/

Laboratoire d’Informatique pour la Mécanique et les Sciences de l’Ingénieur (LIMSI) du Centre National de la Recherche Scientifique (CNRS):
http://www.limsi.fr/

Laboratoire de Linguistique Informatique de l’Université Paris 13:
http://www-lli.univ-paris13.fr/

Lexique:
http://www.lexique.org/

Le Musée virtuel des dictionnaires:
http://www.u-cergy.fr/dictionnaires/

Revue TAL (Traitement automatique des langues):
http://tal.revuesonline.com/
http://www.atala.org/rubrique.php3?id_rubrique=1

SYSTRAN Language Translation Technologies:
http://www.systran.fr/

Le Trésor de la Langue Française informatisé (TLFi):
http://atilf.atilf.fr/tlf.htm

Unitex:
http://www-igm.univ-mlv.fr/~unitex/

WordNet: a lexical database for the English language:
http://wordnet.princeton.edu/