Forum Barcelona 2004 | Español | English | herramientas Inici Mapa de continguts Buscador Mida textMida text text petita 11px text mitjana 14px text gran 17px
Continguts > 42a Reunió Anual de l'Associació de Lingüística Computacional. Comunicació i llenguatge en l´era digital > L’anàlisi sintàctica i semàntica (Synthax/Semantic Parsing)
Documents Envia a un amicEnvia a un amic ImprimeixImprimeix
Resum sessió Resum sessió
L’anàlisi sintàctica i semàntica (Synthax/Semantic Parsing)
Diàleg de referencia: 42a Reunió Anual de l'Associació de Lingüística Computacional. Comunicació i llenguatge en l´era digital

Un dels conflictes més estesos dins la història de la gramàtica és el fet que les funcions sintàctiques no coincideixen amb les funcions semàntiques. El problema s’agreuja quan s’entra en el terreny de la lingüística computacional, perquè els algoritmes que es fan servir en l’anàlisi automàtica (parsing) han de correspondre amb esquemes temàtics precisos, o bé quan es passa d’una formulació merament teòrica a una visió pràctica (la creació de programes de reconeixement de veu o de traducció simultània), que fa que calgui estar contínuament adaptant i millorant les tècniques (encara que no se surti de tres tendències predominants: l’anàlisi basada en un inventari de formes prototípiques, els sistemes que relacionen uns elements amb altres i la combinació de totes dues coses). De tota manera, la recerca està progressant i l’efectivitat d’aquest tipus de programes és cada vegada més gran, amb la qual cosa es poden aportar nombrosos exemples.

Per poder arribar a crear una gramàtica que un ordinador pugui entendre totalment, s’han proposat molts models basats en qüestions relacionades amb les disciplines de la semàntica (a causa de l’estructura que va conjugant diferents significats dins d’un text) i la sintaxi (l’estructura lògica, que fa que aquest text es pugui entendre i que depèn, a la vegada, d’aspectes semàntics). Dins del món de la lingüística computacional, el model més estès és l’estadístic. En aquest cas, el que es fa és recopilar una sèrie de variants i estructures que s’acaben catalogant perquè l’ordinador reconegui les parts d’un text a través d’aquesta base de dades, com si fos un diccionari. A banda d’això, s’acostumen a fer servir altres criteris basats més aviat en la comprensió, com un «cervell electrònic» pot entendre el text a través de l’aprenentatge. Aquesta substitució suposa també la creació d’un índex d’estructures que l’ordinador ha de reconèixer (typed feature structured grammars o TFSG), una sèrie de relacions entre paraules «mares» i «filles» (com en el cas de la transposició, de la derivació morfològica amb l’exemple del verb anglès «throw» i el substantiu «thrower»). L’alternativa del model del parsing per a la comprensió sintàctica és important perquè abans només s’havia arribat a un nivell acústic i lèxic amb el programa N-gram. De tota manera, el parsing, encara que analitza els problemes sintàctics, no arriba a entendre que hi ha estructures lèxiques complexes formades per més d’una paraula. A més d’això, tampoc no arriba a abordar la dimensió semàntica i menys encara la pragmàtica. Generalment, el parsing treballa distingint les funcions dels constituents d’un enunciat, per la qual cosa sempre busca les diferents categories gramaticals, sintagmes o enunciats que poden aparèixer en un mateix «forat». Alguns experiments es van fer a través de repeticions (es van fer servir textos del Wall Street Journal) fins arribar a resultats satisfactoris que han ajudat (i ajuden) a desenvolupar sistemes de traducció simultània i reconeixement de veu cada vegada més eficaços.

Si es vol arribar a un mètode de parsing més efectiu, es proposa una nova opció que consisteix a forçar l’ordinador perquè aprengui més ràpidament. El que es fa és elaborar estructures sintàctiques complexes perquè intenti descompondre-les concentrant-se sobretot en la jerarquia (funcions que n’engloben d’altres), les conjunctions i disjunctions (separació de les paraules, dels sintagmes per sota d’aquesta jerarquització) i els antecedents complexos (la referència anafòrica). S’ha demostrat que, malgrat que els ordinadors treballen a un nivell més baix, en trigar més els resultats són molt positius, perquè, a la llarga, aprenen molt més de pressa.

En l’estructura de l’arbre, que és la més popular a l’hora de fer una anàlisi sintàctica, moltes vegades les dependències sintàctiques entre constituents no s’aprecien amb claredat, per la qual cosa s’han de transformar i completar d’alguna manera, «trencant» alguna de les seves branques o afegint nodes que interfereixen en l’estructura general. Això és així perquè l’anàlisi no ha de ser purament sintàctica i les funcions sintàctiques moltes vegades no coincideixen amb les funcions semàntiques. La jerarquització que s’estableix en l’esquema arbori situa els constituents en diferents nivells, i els «arcs semàntics» que s’afegeixen ajuden a entendre aquestes relacions que van més enllà d’una mera construcció lògica. Aquest tipus de treballs s’acostuma a aconseguir entrenant programes d’anàlisi d’estructures com el TiMB i fent servir rols semàntics proporcionats per un corpus com el de FrameNet. Una vegada fet tot això, el parsing serà més efectiu a l’hora d’establir les funcions sintàctiques, perquè ara també depenen del valor semàntic dels constituents.

El conflicte entre semàntica i sintaxi continua quan es comença a prestar atenció a qüestions com les estructures gramaticals en les quals un nucli presenta determinats elements (a la dreta i a l’esquerra) que en depenen i que han de ser catalogats. Per a això és fonamental saber quin és el nucli, amb la qual cosa, de nou, caldrà recórrer a criteris semàntics. En les gramàtiques alliberades del context els treebanks han funcionat bé en poder establir unitats amb valor semàntic en clàusules simples, però han oblidat les «dislocacions», elements «cecs», connectors que no s’expliciten però que hi són. La solució es troba en els «complementadors» (complementizers) nuls que han de ser classificats a través dels criteris puraments sintàctics (estructurals) sense oblidar del tot la dimensió significativa.

En concretar la recerca en una llengua, l’exemple del projecte Alpino, utilitzat exclusivament en textos alemanys, és realment significatiu. En aquesta ocasió l’objectiu és servir-se d’un gran corpus per arribar al que se sol anomenar una «enginyeria gramatical» que s’encarrega de crear un ampli inventari d’estructures comunes i de lèxic en general, amb la finalitat d’elaborar un diccionari i una gramàtica. L’objectiu primordial del parsing (o análisi sintàctica) és el d’arribar a establir estructures (treebanks) molt petites, intentar arribar al detall perquè la descomposició del text pugui ser tant exhaustiva com sigui possible, procurant, també, tenir en compte els fragments perduts que no estan presents però que influeixen en la coherència (com per exemple, els casos d’el·lipsi). El corpus que es va fer servir en aquesta experiència prové de diversos periòdics alemanys (Trown, NRC…) en els quals es va dur a terme un procés de parsing en estructures sintàctiques més o menys complexes que havien de ser segmentades en la seva totalitat. Els resultats van ser confusos, en barrejar-se paraules i estructures d’altres llengües que sortien en els textos com si en realitat pertanguessin a l’alemany, amb la qual cosa aquest tipus d’interferències van provocar que algunes d’aquestes estructures només se segmentessin en part. La solució que es proposa davant d’aquest fenomen és la de fer un parsing continu per contrastar les solucions proposades, i sobretot, per aconseguir que la identificació d’estructures sigui més precisa, ja que en moltes ocasions l’anàlisi no va ser efectiva a causa del problema dels elements que influeixen en la construcció sintàctica del text, però que no són presents (de nou el fenomen dels casos d’el·lipsi).

A partir del concepte dels bodies of rules (és a dir, estructures gramaticals que es repeteixen constantment fins al punt de poder establir una regla més o menys general) es pot dir que aquests són molt útils dins d’una anàlisi basada en el parsing, a causa de la sistematització d’aquest procediment. Un cas significatiu són les relacions de dependència entre paraules (per exemple tres adjectius que caracteritzen un mateix substantiu: «big round green ball»), en el qual el parsing ha de buscar un balanç regular transformant l’estructura d’un text en si, exclusivament en relacions de dependència entre constituents. A la pràctica s’han fet servir dos programes automàtics que actuen de manera diferent: un d’ells basats en el bigram algorithm, i l’altre l’anomenat MDI. En el primer d’ells, les relacions de dependència sorgeixen automàticament, mentre en el segon s’intenten controlar a través de l’addició d’un paràmetre).

Tornant a la qüestió de les categories buides en una clàusula o oració (com les el·lipsis, els relatius que no apareixen en anglès, etc.), a vegades cal veure com classificar-los i relacionar-los amb els altres elements. Hi ha dues opcions possibles: acudir a un arxiu on estan registrades les formes més comunes o crear unes noves regles que puguin complir amb facilitat. L’algoritme basat en regles es fa a través del model d’arbre (PTB-style) redundant en regles com la del relatiu no explícit o la problemàtica del complement agent en les passives (que semànticament, actua com a subjecte). Però aquest sistema no és perfecte, ja que moltes vegades detecta més complements implícits dels que hauria de detectar. En realitat, la millor possibilitat consistiria a ajuntar esforços: es reunirien les virtuts d’un sistema basat en una avaluació funcional lineal (string-based evaluation), que funciona més bé quan no treballa en les qüestions de detecció i resolució de categories buides. Pel que fa a la identificació lèxica, el sistema d’etiquetatge (label) automàtic és molt efectiu: el tree no és més que un analitzador (parser) que descompon el text, mentre que el label+parent funciona a partir de les relacions entre elements (relacions sintagmàtiques).

L’aplicació del parsing sintàctic i l’algoritme en el qual es basa pot ser usat en traduccions amb cert èxit fent servir el concepte de l’anàlisi sintàctica tridimensional. Si es prenen dues frases senzilles en dos idiomes diferents i es descomponen en paral·lel s’estableix una relació entre categories gramaticals i funcions. En l’exemple de l’anglès «wash the dishes», el verb és «wash» i el complement directe «the dishes». En rus la clàusula seria «pasadu moy»: «pasadu» és el substantiu (complement directe) i «moy» el verb (predicat). Si s’estableix una correspondència en un gràfic en el qual s’uneixen les categories gramaticals del substantiu amb el substantiu («dishes» amb «pasadu») i del verb amb el verb («wash» amb «moy») i les funcions del complement directe i del predicat d’una clàusula amb l’altra, l’ordinador crearà un algoritme que tendirà a relacionar aquest tipus de correspondències a través d’una espècie de «sincronització» d’elements comuns: en esquemes com aquest, les funcions sintàctiques i les semàntiques gairebé coincideixen. En certa manera, es podria dir que «la gramàtica també funciona com un model de traducció».

Basat en les ponències:
- «Optimizing Typed Feature Structure Grammar Parsing through Non-Statistical Indexing», de Cosmin Munteanu i Geral Penn.
- «Head-Driven Parsing for Word Lattices», de Christopher Collins et al.
- «Balancing Clarity and Efficiency in Typed Feature Logic through Delaying», de Geral Penn.
- «Minimal Recursion Semantics as Dominance Constraits: Translation, Evaluation, and Analysis», de Ruth Fuchss et al.
- «Enriching the Output of a Parser Using Memory-based Learning», de Valentin Jijkoun i Marteen de Rijke.
- «Deep Dependencies from Context-Free Statistical Parsers: Correcting the Surface Dependency Approximation», de Roger Levy i Christopher D. Manning.
- «Error Mining for Wide-Coverage Grammar Engineering», de Gertjan van Noord.
- «Alternative approaches for Generating Bodies of Grammar Rules», de Gabriel Infante-López i Marteen de Rijke.
- «Using Linguistic Principles to Recover Empty Categories y Statistical Machine Translation by Parsing», de Richard Campbell.

Pujar
Per paraula clau
Doc. més relacionats
RS La coreferència i l’anàfora
 
RS Preguntes i respostes
 
RS La semàntica lèxica (Lexical Semantics)
 
RS Tallers, seminaris i una conferència associada (Workshops)
 
RS El processament de la parla conversacional (Conversational Spoken Language Processing)
 

Els més de 800 Resums de Sessió que s’han generat durant els 141 dies de diàlegs al Fòrum BCN 2004 han estat realitzats gràcies a la participació de més de 70 estudiants i llicenciats universitaris, als quals agraïm el seu esforç desinteressat.