|
Linguamática 2012
Uma incurs o pelo universo das publica es em PortugalKeywords: publica es , recolha de informa o , corre o ortográfica , repositórios , usabilidade Abstract: Neste artigo descrevemos um projeto de colabora o entre a Linguateca e o RCAAP (Repositório Científico de Acesso Aberto de Portugal) no sentido de determinar a possibilidade de melhorar a procura no meta-repositório deste último com ferramentas de processamento da língua portugesa. Após uma breve apresenta o do projeto e da sua motiva o nas duas primeiras sec es, na sec o 3 descrevemos a quantidade de procuras a que tivemos acesso, e nas quais baseamos o estudo, assim como fazemos uma descri o do material depositado no repositório com base em oito recolhas diferentes, no que se refere ao nome dos autores. Prosseguimos descrevendo a análise e processamento dos nomes dos autores (limpeza, normaliza o e agrupamento), assim como a análise da popula o de autores nos metadados e nas procuras nas duas sec es seguintes, 4 e 5. Com isso identificamos uma série de possíveis grupos de autores, e descrevemos alguns problemas encontrados. Na sec o 6, a mais importante do artigo, analisamos as sess es – ou seja, sequências de procuras feitas por um mesmo utilizador a interagir no portal – para verificar se há varia o, corre o e altera o no nome dos autores dentro de uma sess o. As sec es seguintes, 7 e 8 referem-se a assuntos relacionados com a procura em repositórios de publica es, sobre os quais se fizeram pequenas experiências piloto no ambito do presente projeto, e que permitem ilustrar o quanto ainda estamos aquém de utilizar robustamente quer corre o ortográfica quer análise de cita es em ambientes realistas, mas que indicam caminhos a seguir. Acabamos a apresenta o com uma discuss o de possíveis formas de prosseguir, após abordar levemente trabalho relacionado na sec o 9.
|