%0 Journal Article %T Inducci¨®n de constituyentes sint¨¢cticos en espa ol con t¨¦cnicas de clustering y ltrado por informaci¨®n mutua %A Fernando Balbachan %A Diego Dell'Era %J Linguam¨¢tica %D 2010 %I Universidade do Minho & Universidade de Vigo %X El Argumento de la Pobreza de los Est¨ªmulos (Argument from the Poverty of Stimulus, APS) se presenta como el gran campo de debate epistemol¨®gico entre el paradigma simb¨®lico y el paradigma estad¨ªstico en ling¨¹¨ªstica computacional (Pullum y Scholz 2002). Desde 2000 en adelante aparecieron algunos trabajos dentro del paradigma estad¨ªstico que se propusieron atacar el Argumento de la Pobreza de los Est¨ªmulos a partir de la postulaci¨®n de alg¨²n algoritmo general no supervisado de adquisici¨®n integral del lenguaje. Entre los aportes m¨¢s importantes, la tesis de doctorado de Clark (2001) recurre a diversas t¨¦cnicas estad¨ªsticas para dar con un algoritmo general no supervisado de inducci¨®n del lenguaje, y en particular, de una gram¨¢tica independiente de contexto para el ingl¨¦s.Clark (2001) trabaja con distintas t¨¦cnicas de inducci¨®n para cada fen¨®meno ling¨¹¨ªstico modelizado: morfolog¨ªa mediante modelos markovianos, categorizaci¨®n (POS-tagging) mediante clustering, etc. Puntualmente, en este trabajo estamos interesados en la inducci¨®n de constituyentes sint¨¢cticos, dado un corpus etiquetado por clase de palabras (POS-tagged), como paso previo al procedimiento de inducci¨®n de una gram¨¢tica independiente de contexto. En su propia tesis, el autor reconoce que es necesaria una mayor evidencia transling¨¹¨ªstica que apoye la plausibilidad psicoling¨¹¨ªstica de un enfoque como el suyo. Actualmente, no existen trabajos que se hayan propuesto probar el enfoque de Clark (2001) para la inducci¨®n de sintaxis en lenguas flexivas y con orden libre de constituyentes, como el espa ol. As¨ª pues, nuestro trabajo se propone contribuir con dicha evidencia transling¨¹¨ªstica, estudiando la factibilidad de aplicaci¨®n del algoritmo de inducci¨®n de constituyentes de Clark (2001) para el espa ol. El algoritmo de Clark (2001) que nos ocupa consiste en aplicar t¨¦cnicas de clustering K-means para agrupar secuencias de etiquetas de clase de palabra, seg¨²n su informaci¨®n distribucional. Luego, se procede a filtrar los resultados para encontrar clusters que efectivamente se correspondan con grupos de constituyentes, recurriendo a un criterio de informaci¨®n mutua entre los s¨ªmbolos inmediatamente anteriores y posteriores a dichas secuencias. Este criterio de filtrado evita el sesgo de un corpus escaso, al tiempo que logra distinguir la dependencia buscada entre los l¨ªmites de las secuencias candidatas a constituyentes por sobre el umbral de la entrop¨ªa natural de s¨ªmbolos que co-ocurren a una cierta distancia en el lenguaje (Li 1990). Nuestra implementaci¨®n del algoritmo ha sido evaluada en un cor %U http://linguamatica.com/index.php/linguamatica/article/view/60/84