|
中山大学学报(自然科学版) 2016
随机森林改进算法在LBS用户社会关系推断中的应用Keywords: 基于位置的服务,时空共现,随机森林,分区采样,社会关系推断 Abstract: 摘要 根据LBS用户位置信息对用户社会关系进行推断,是基于位置大数据的情报挖掘领域中的一个新兴问题,可为群体发现及社团划分提供信息支撑.本文以时空共现理论为依据,对时空共现区的4类特征进行了选择、归纳及优化.针对随机森林难以对高维且含有冗余特征的数据进行分类的问题,提出一种基于特征空间分区采样策略的随机森林算法.该算法以Fisher比对特征的重要程度进行度量,并以此为依据对特征子空间分区,然后按比例进行采样,最后构造随机森林.这一改进有效避免了随机采样法构造特征子空间时容易引入噪声的问题.实验结果表明,相比于标准的随机森林算法,改进算法在对具有高维、冗余特征的数据分类中更为有效,更加适合应用于对LBS用户社会关系的推断.
|