|
Linguamática 2012
Geocodifica o de Documentos Textuais com Classificadores Hierárquicos Baseados em Modelos de LinguagemKeywords: Processamento de Texto , Recupera o de Informa o Geográfica , Geocodifica o de Documentos Abstract: A maioria dos documentos textuais, produzidos no contexto das mais diversas aplica es, encontra-se relacionado com algum tipo de contexto geográfico. Contudo, os métodos tradicionais para a prospec o de informa o em colec es de documentos vêem os textos como conjuntos de termos, ignorando outros aspectos. Mais recentemente, a recupera o de informa o com suporte ao contexto geográfico tem capturado a aten o de diversos investigadores em áreas relacionadas com a prospec o de informa o e o processamento de linguagem natural, envisionando o suporte para tarefas como a pesquisa e visualiza o de informa o textual, com base em representa es cartográficas. Neste trabalho, comparamos experimentalmente diferentes técnicas automáticas, as quais utilizam classificadores baseados em modelos de linguagem, para a atribui o de coordenadas geoespaciais de latitude e longitude a novos documentos, usando apenas o texto dos documentos como evidência de suporte. Medimos os resultados obtidos com modelos de linguagem baseados em n-gramas de caracteres ou de termos, usando colec es de artigos georreferenciados da Wikipédia em três línguas distintas, nomeadamente em Inglês, Espanhol e Português. Experimentamos também diferentes métodos de pós-processamento para atribuir as coordenadas geoespaciais com base nas classifica es. O melhor método utiliza modelos de linguagem baseados em n-gramas de caracteres, em conjunto com uma técnica de pós-processamento que utiliza as coordenadas dos knn documentos mais similares, obtendo um erro de previs o médio de 265 Kilómetros, e um erro mediano de apenas 22 Kilómetros, para o caso da colec o da Wikipédia Inglesa. Para as colec es Portuguesa e Espanhola, as quais s o significativamente mais pequenas, o mesmo método obteve um erro de previs o médio de 278 e 273 Kilómetros, respectivamente, e um erro de previs o mediano de 28 e de 45 Kilómetros.
|