本文共 1795 字,大约阅读时间需要 5 分钟。
WebUsage Mining:Discovery and Applications of Usage Patterns from Web Data
Abstract
Introduction
在介绍了网络用户挖掘的一种使用场景(大规模定制服务)之后介绍了该研究的基本分类。
web data
将数据进行分类,按其来源分为server、client、proxy端。按其内容分为content\structure\usage\user profile
2.1data source
按照来源分类的基础上,讨论了这三种数据的优劣。Server端数据是以包作为基本单位的,page view显示一次鼠标点击的结果,但是这通常映射了多个数据包。Client端数据客户端数据采集需要客户支持。但它通过cookies解决了服务器端的局限性--.可以提供单机单网站(javascript)或者单机多网站(修改的浏览器)的数据,但无法提供返回和重载时的数据,也不能保证用户始终使用该浏览器。Proxy端数据:介绍proxy级的数据采集可以展示实际的http访问的情况。
2.2data abstraction
将数据分级。当数据抽象为user, session, episode?, click stream,andpage views5级之后。独立和重复认证一个用户是很难的。提出数据抽象中的概念虽然简单,但采集和追踪这些数据很难可靠。任何语义有效的用户session的子集称作episode。
Web Usage Mining
按阶段进行讨论
3.1Preprocessing
预处理就是把数据抽象化的过程。
3.1.1usage preprocessing
由于数据的不完整性,该部分被认为是这一领域最困难的工作。Single IP/Multi session * 4
3.1.2content preprocessing
介绍了分类、聚类、VSM等方法。以及Dynamic page view的问题。
3.1.3structure preprocessing
3.2pattern discovery
介绍了statistical analysis\associationrules\clustering\classification\sequential pattern(观察事件出现的时间顺序以便对固定人群投放广告、也包括趋势分析、变化点检测和相似性分析)\dependency modeling例如HMM和Bayes Belief
3.3patternanalysis
去粗取精,将有用的规则取出来,将趋势用可视化的工具表现出来。
Taxonomy and project suvey
4.1 Taxonomydimensions
按照数据源、数据类型、数据集中用户总数、数据集中网站总数、应用范围进行分类。绝大多数web usage mining projects采用single-site, multi-user,server-side usage data(Web server logs)
4.2 projectsuvery
按照目的进行分类。personalization(推荐系统)、systemimprovement(improve performance and other service quality attributes)、site modification、businessintelligence.
WEBSIFT Overview
介绍了WEBSIFT web mining系统。数据来源是服务器log 格式是扩展的NSCA格式(包含referrer和agent)。
Provacy Issues
介绍了隐私保护方面的情况。分别从研究者和用户两个角度进行分析。其后,总结了欧洲和美国方面在隐私保护方面的工作。
Conclusion
讨论。按照时间间隔的特征是否能区分自发访问。
对于同一个IP,自发访问的发生可能是固定长时间间隔的。
如果在一个访问的前后一段时间没有发现同IP的其他访问,则称之为孤立访问。
像这样的孤立访问,在正常网络访问状态应当是小概率出现的。但自发访问可能会产生大量的孤立访问。如果一个URL映射多个孤立访问,是否可以认为它是一个自发访问?
转载地址:http://kxbci.baihongyu.com/