全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...

ALGORITMO FONéTICO PARA DETECCIóN DE CADENAS DE TEXTO DUPLICADAS EN EL IDIOMA ESPA OL PHONETIC ALGORITHM TO DETECT DUPLICATE TEXT STRINGS IN SPANISH

Keywords: Limpieza de datos , calidad de datos , detección de duplicados , funciones de similitud , algoritmos fonéticos , Data cleansing , data quality , detection of duplicates , similarity functions , phonetic algorithms

Full-Text   Cite this paper   Add to My Lib

Abstract:

Con frecuencia datos que deberían estar escritos de forma idéntica no lo están debido a errores ortográficos y tipográficos, variaciones en el orden de las palabras, uso de prefijos y sufijos, entre otros. Las técnicas fonéticas para detección de duplicados no están orientadas al idioma espa ol, lo que dificulta la identificación y corrección de problemas como errores ortográficos en textos escritos en este idioma. En este artículo de investigación se propone un algoritmo denominado PhoneticSpanish para la detección de cadenas de texto duplicadas el cual considera la presencia de errores ortográficos en el idioma espa ol. El algoritmo propuesto se comparó con nueve técnicas para la detección de duplicados. Los resultados del algoritmo fueron satisfactorios ya que se obtuvieron mejores resultados que las otras técnicas y evidencian oportunidades para mejorar el análisis de información en el idioma espa ol. Often data that should be written so they are not identical due to misspellings and typos, variations in word order, use of prefixes and suffixes, among others. Phonetic techniques for duplicate detection are not geared toward the Spanish language, which makes the identification and correction of problems such as spelling errors in texts written in this language. In this paper we propose an algorithm called PhoneticSpanish to detect duplicate text strings which considers the presence of spelling errors in Spanish. The proposed algorithm was compared with nine techniques to detect duplicates. The results were satisfactory and the algorithm that performed better than the other techniques and demonstrate opportunities for improved analysis of information in Spanish.

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133