|
南京邮电大学学报(自然科学版) 2008
一种集成的字符集检测方法研究, PP. 15-19 Abstract: 有些文本缺少字符集信息,因而阻碍了字符信息的正确解析。为了获得字符集信息可以根据文本中字符信息的统计特征以及各种字符集之间的差异来识别出文本的字符集。集成的字符集检测方法通过综合应用编码模式检测方法、字符分布方法和双字符序列检测方法来检测字符集。它根据算法复杂度和每种算法的准确率来调度算法,使得在用一种方法不能确定字符集的情况下利用其它方法来检测出字符集实验结果表明:集成的字符检测技术具有较高的准确率。集成的字符检测方法在某些情况下通过适度增加一些时间来获得较高的精度。
|