%0 Journal Article %T ALGORITMO FON¨¦TICO PARA DETECCI¨®N DE CADENAS DE TEXTO DUPLICADAS EN EL IDIOMA ESPA OL PHONETIC ALGORITHM TO DETECT DUPLICATE TEXT STRINGS IN SPANISH %A Iv¨¢n Am¨®n %A Francisco Moreno %A Jaime Echeverri %J Revista Ingenier¨ªas Universidad de Medell¨ªn %D 2012 %I Universidad de Medell¨ªn %X Con frecuencia datos que deber¨ªan estar escritos de forma id¨¦ntica no lo est¨¢n debido a errores ortogr¨¢ficos y tipogr¨¢ficos, variaciones en el orden de las palabras, uso de prefijos y sufijos, entre otros. Las t¨¦cnicas fon¨¦ticas para detecci¨®n de duplicados no est¨¢n orientadas al idioma espa ol, lo que dificulta la identificaci¨®n y correcci¨®n de problemas como errores ortogr¨¢ficos en textos escritos en este idioma. En este art¨ªculo de investigaci¨®n se propone un algoritmo denominado PhoneticSpanish para la detecci¨®n de cadenas de texto duplicadas el cual considera la presencia de errores ortogr¨¢ficos en el idioma espa ol. El algoritmo propuesto se compar¨® con nueve t¨¦cnicas para la detecci¨®n de duplicados. Los resultados del algoritmo fueron satisfactorios ya que se obtuvieron mejores resultados que las otras t¨¦cnicas y evidencian oportunidades para mejorar el an¨¢lisis de informaci¨®n en el idioma espa ol. Often data that should be written so they are not identical due to misspellings and typos, variations in word order, use of prefixes and suffixes, among others. Phonetic techniques for duplicate detection are not geared toward the Spanish language, which makes the identification and correction of problems such as spelling errors in texts written in this language. In this paper we propose an algorithm called PhoneticSpanish to detect duplicate text strings which considers the presence of spelling errors in Spanish. The proposed algorithm was compared with nine techniques to detect duplicates. The results were satisfactory and the algorithm that performed better than the other techniques and demonstrate opportunities for improved analysis of information in Spanish. %K Limpieza de datos %K calidad de datos %K detecci¨®n de duplicados %K funciones de similitud %K algoritmos fon¨¦ticos %K Data cleansing %K data quality %K detection of duplicates %K similarity functions %K phonetic algorithms %U http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S1692-33242012000100011