%0 Journal Article %T 基于最大期望算法的蛋白质交互关系识别 %J - %D 2018 %R 10.3969/ j. issn.1673-629X.2018.08.010 %X 针对基于远监督的方法中训练数据存在噪音的问题,采用了一种基于最大期望(EM)算法的多实例多标记的方法来进行蛋白质关系的抽取。 首先通过对大规模生物医学文本的自动搜索建立目标蛋白质对的签名档,提取出签名档中的词法和语法等特征,作为蛋白质对签名档的向量空间模型(VSM);然后引入隐变量,将蛋白质对的签名档及其标签构建为多实例多标记学习模型,利用最大期望算法来迭代消除训练数据中的噪音;最后通过有监督的方法来预测未知蛋白质对的交互关系。 针对蛋白质对描述中还存在的其他蛋白质名称会对交互关系的判断产生影响,改进了蛋白质对的特征表示。 实验结果表明,该方法较原始的最大期望算法取得了更高且均衡的精确度和召回率 %K 蛋白质交互 %K 最大期望算法 %K 多实例多标记 %K 蛋白质实体识别 %U http://www.xactad.org//oa/darticle.aspx?type=view&id=201808010