%0 Journal Article %T Geocodifica o de Documentos Textuais com Classificadores Hier¨¢rquicos Baseados em Modelos de Linguagem %A Duarte Dias %A Ivo Anast¨¢cio %A Bruno Martins %J Linguam¨¢tica %D 2012 %I Universidade do Minho & Universidade de Vigo %X A maioria dos documentos textuais, produzidos no contexto das mais diversas aplica es, encontra-se relacionado com algum tipo de contexto geogr¨¢fico. Contudo, os m¨¦todos tradicionais para a prospec o de informa o em colec es de documentos v¨ºem os textos como conjuntos de termos, ignorando outros aspectos. Mais recentemente, a recupera o de informa o com suporte ao contexto geogr¨¢fico tem capturado a aten o de diversos investigadores em ¨¢reas relacionadas com a prospec o de informa o e o processamento de linguagem natural, envisionando o suporte para tarefas como a pesquisa e visualiza o de informa o textual, com base em representa es cartogr¨¢ficas. Neste trabalho, comparamos experimentalmente diferentes t¨¦cnicas autom¨¢ticas, as quais utilizam classificadores baseados em modelos de linguagem, para a atribui o de coordenadas geoespaciais de latitude e longitude a novos documentos, usando apenas o texto dos documentos como evid¨ºncia de suporte. Medimos os resultados obtidos com modelos de linguagem baseados em n-gramas de caracteres ou de termos, usando colec es de artigos georreferenciados da Wikip¨¦dia em tr¨ºs l¨ªnguas distintas, nomeadamente em Ingl¨ºs, Espanhol e Portugu¨ºs. Experimentamos tamb¨¦m diferentes m¨¦todos de p¨®s-processamento para atribuir as coordenadas geoespaciais com base nas classifica es. O melhor m¨¦todo utiliza modelos de linguagem baseados em n-gramas de caracteres, em conjunto com uma t¨¦cnica de p¨®s-processamento que utiliza as coordenadas dos knn documentos mais similares, obtendo um erro de previs o m¨¦dio de 265 Kil¨®metros, e um erro mediano de apenas 22 Kil¨®metros, para o caso da colec o da Wikip¨¦dia Inglesa. Para as colec es Portuguesa e Espanhola, as quais s o significativamente mais pequenas, o mesmo m¨¦todo obteve um erro de previs o m¨¦dio de 278 e 273 Kil¨®metros, respectivamente, e um erro de previs o mediano de 28 e de 45 Kil¨®metros. %K Processamento de Texto %K Recupera o de Informa o Geogr¨¢fica %K Geocodifica o de Documentos %U http://www.linguamatica.com/index.php/linguamatica/article/view/139