|
计算机科学 2002
User Identification in the Preprocessing of Web Log Mining
|
Abstract:
1 引言互联网技术和应用的迅速发展使得可以从因特网获取的信息量日益剧增,因此迫切需要一种新的技术从这些信息中快速、及时地发现有用的知识,提高信息的利用率。作为数据挖掘技术研究的一个重要领域,Web日志挖掘(Web LogMining)是从服务器日志文件内大量的用户访问记录中抽取有用信息的过程。通过对Web日志的分析,可以构造出用户的行为模式,对于分析改进网络性能、优化网站的设计和拓扑结构以及改善企业的市场营销决策等会有极大的帮助。当前Web日志挖掘领域的研究已取得了很大的进展,但是目前的研究重点大都集中于挖掘算法的设计、分析和改进,对日志文件预处理方法的研究相对较少,然而正确有效地对Web日志文件进行预处理,不仅有利于随后的挖掘算法分析,而且对于最终形成准确可靠的用户行为模式也是极为重要的。