%0 Journal Article %T A statistical approach to term extraction %A Rogelio Nazar %J International Journal of English Studies (IJES) %D 2011 %I Universidad de Murcia %R 10.6018/ijes.11.2.149691 %X This paper argues in favor of a statistical approach to terminology extraction, general to all languages but with language specific parameters. In contrast to many application-oriented terminology studies, which are focused on a particular language and domain, this paper adopts some general principles of the statistical properties of terms and a method to obtain the corresponding language specific parameters. This method is used for the automatic identification of terminology and is quantitatively evaluated in an empirical study of English medical terms. The proposal is theoretically and computationally simple and disregards resources such as linguistic or ontological knowledge. The algorithm learns to identify terms during a training phase where it is shown examples of both terminological and non-terminological units. With these examples, the algorithm creates a model of the terminology that accounts for the frequency of lexical, morphological and syntactic elements of the terms in relation to the non-terminological vocabulary. The model is then used for the later identification of new terminology in previously unseen text. The comparative evaluation shows that performance is significantly higher than other well-known systems. Este art¨ªculo presenta argumentos en favor de una aproximaci¨®n estad¨ªstica a la extracci¨®n de terminolog¨ªa, general a todas las lenguas pero con par¨¢metros espec¨ªficos para cada una de ellas. En contraste con la tendencia general en terminolog¨ªa aplicada, que suele ser espec¨ªfica de una lengua y un dominio de especialidad, el presente art¨ªculo adopta unos principios generales acerca de las propiedades estad¨ªsticas de la terminolog¨ªa especializada y un m¨¦todo para obtener los par¨¢metros correspondientes a una lengua en particular. Este m¨¦todo se utiliza para la identificaci¨®n autom¨¢tica de los t¨¦rminos en los textos, y su efectividad es evaluada en este art¨ªculo mediante un estudio emp¨ªrico en el caso de la terminolog¨ªa m¨¦dica en ingl¨¦s. El modelo requiere escasa complejidad te¨®rica y computacional, y no necesita recurrir a fuentes de conocimiento ling¨¹¨ªstico u ontol¨®gico. Este algoritmo aprende autom¨¢ticamente a identificar t¨¦rminos durante una fase de entrenamiento en que se utilizan conjuntos de ejemplos de unidades terminol¨®gicas y no terminol¨®gicas. Con estos ejemplos, el algoritmo elabora un modelo de los t¨¦rminos teniendo en cuenta la frecuencia de elementos l¨¦xicos, morfol¨®gicos y sint¨¢cticos en relaci¨®n al vocabulario no terminol¨®gico. Sobre la base de este modelo, identificar¨¢ luego nuevos t¨¦rminos en nuevos textos. El e %K English technical terminology %K terminology extraction %K computational terminography %K quantitative linguistics %U http://revistas.um.es/ijes/article/view/149691