博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
<读书笔记>WebUsage Mining:Discovery and Applications of Usage Patterns from Web Data
阅读量:4049 次
发布时间:2019-05-25

本文共 1795 字,大约阅读时间需要 5 分钟。

WebUsage Mining:Discovery and Applications of Usage Patterns from Web Data

 

Abstract

Introduction

在介绍了网络用户挖掘的一种使用场景(大规模定制服务)之后介绍了该研究的基本分类。

 

web data

将数据进行分类,按其来源分为serverclientproxy端。按其内容分为content\structure\usage\user profile

         2.1data source

                   按照来源分类的基础上,讨论了这三种数据的优劣。Server端数据是以包作为基本单位的,page view显示一次鼠标点击的结果,但是这通常映射了多个数据包。Client端数据客户端数据采集需要客户支持。但它通过cookies解决了服务器端的局限性--.可以提供单机单网站(javascript)或者单机多网站(修改的浏览器)的数据,但无法提供返回和重载时的数据,也不能保证用户始终使用该浏览器。Proxy端数据:介绍proxy级的数据采集可以展示实际的http访问的情况。

       2.2data abstraction

              将数据分级。当数据抽象为user, session, episode?, click stream,andpage views5级之后。独立和重复认证一个用户是很难的。提出数据抽象中的概念虽然简单,但采集和追踪这些数据很难可靠。任何语义有效的用户session的子集称作episode

 

Web Usage Mining

按阶段进行讨论

         3.1Preprocessing

                   预处理就是把数据抽象化的过程。

              3.1.1usage preprocessing

              由于数据的不完整性,该部分被认为是这一领域最困难的工作。Single IP/Multi session * 4

              3.1.2content preprocessing

              介绍了分类、聚类、VSM等方法。以及Dynamic page view的问题。

              3.1.3structure preprocessing

         3.2pattern discovery

         介绍了statistical analysis\associationrules\clustering\classification\sequential pattern(观察事件出现的时间顺序以便对固定人群投放广告、也包括趋势分析、变化点检测和相似性分析)\dependency modeling例如HMM和Bayes Belief

         3.3patternanalysis

         去粗取精,将有用的规则取出来,将趋势用可视化的工具表现出来。

 

Taxonomy and project suvey

4.1 Taxonomydimensions

按照数据源、数据类型、数据集中用户总数、数据集中网站总数、应用范围进行分类。绝大多数web usage mining projects采用single-site, multi-user,server-side usage data(Web server logs)

4.2 projectsuvery

按照目的进行分类。personalization(推荐系统)、systemimprovement(improve performance and other service quality attributes)、site modification、businessintelligence.

 

WEBSIFT Overview

介绍了WEBSIFT web mining系统。数据来源是服务器log 格式是扩展的NSCA格式(包含referrer和agent)。

 

Provacy Issues

介绍了隐私保护方面的情况。分别从研究者和用户两个角度进行分析。其后,总结了欧洲和美国方面在隐私保护方面的工作。

 

Conclusion

 

讨论。按照时间间隔的特征是否能区分自发访问。

对于同一个IP,自发访问的发生可能是固定长时间间隔的。

如果在一个访问的前后一段时间没有发现同IP的其他访问,则称之为孤立访问。

 

像这样的孤立访问,在正常网络访问状态应当是小概率出现的。但自发访问可能会产生大量的孤立访问。如果一个URL映射多个孤立访问,是否可以认为它是一个自发访问?

转载地址:http://kxbci.baihongyu.com/

你可能感兴趣的文章
Django框架全面讲解 -- Form
查看>>
socket,accept函数解析
查看>>
今日互联网关注(写在清明节后):每天都有值得关注的大变化
查看>>
”舍得“大法:把自己的优点当缺点倒出去
查看>>
[今日关注]鼓吹“互联网泡沫,到底为了什么”
查看>>
[互联网学习]如何提高网站的GooglePR值
查看>>
[关注大学生]求职不可不知——怎样的大学生不受欢迎
查看>>
[关注大学生]读“贫困大学生的自白”
查看>>
[互联网关注]李开复教大学生回答如何学好编程
查看>>
[关注大学生]李开复给中国计算机系大学生的7点建议
查看>>
[茶余饭后]10大毕业生必听得歌曲
查看>>
gdb调试命令的三种调试方式和简单命令介绍
查看>>
C++程序员的几种境界
查看>>
VC++ MFC SQL ADO数据库访问技术使用的基本步骤及方法
查看>>
VUE-Vue.js之$refs,父组件访问、修改子组件中 的数据
查看>>
Vue-子组件改变父级组件的信息
查看>>
Python自动化之pytest常用插件
查看>>
Python自动化之pytest框架使用详解
查看>>
【正则表达式】以个人的理解帮助大家认识正则表达式
查看>>
性能调优之iostat命令详解
查看>>