全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...

古籍文本抽词研究

Keywords: 实义词,实义词,古籍数字化,古籍数字化,n-gram,n-gram,自动分词,自动分词

Full-Text   Cite this paper   Add to My Lib

Abstract:

?目前古籍文本检索大多局限于篇、章及目录,即使是全文检索一般也是基于单汉字的检索,由于没有现成的古籍词表可用,古籍文本的标引和检索效率都受到影响。现将处理现代文本的n元组法移植到古籍文本中进行实义词提取,实验步骤包括:自动分词并统计词频;利用抽词词典和停用词词典得到候选词汇;通过简单计算对n元组进行剔除过滤;人工判别提取实词。实验共从10万字的文本对象《齐民要术》中提取古籍普通语词和专有名词(包括书名、地名、人名官职名)共3369个,表明此实验方案基本是可行的。

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133