logo 广告
Loading...
 导航 所在位置:论坛首页 -> ┈┋业界相关┋┈ -> 网站运营及收益 -> 网站运营的深度挖掘及用户行为习惯分析应用
管理员发帖回复

网站运营的深度挖掘及用户行为习惯分析应用

作者:冰心雨 时间:2007-12-5 21:13:52 收藏 编辑

你的网站是不是真的被很多人关注?有多少人是你的忠实浏览者?你所用心运营的栏目和文章是否能带来你所期待的结果?你辛苦设计的SEO关键字和努力是否白做功夫?你是否在猜测你的用户可能的举动,还是在模仿大部分浏览者的行为习惯,按他们的行为习惯设计架构和流程?你的用户在你网站上的行为习惯是怎么样的?

主持:大家好,今天下午我们分享的题目是《[数据挖掘]之网站运营搜索引擎用户行为分析》。

主持:为了让访谈更深入,我们在访谈中设置了互动环节,我们采取这样的流程,全过程分为2个部分,我们的今天访谈流程如下:

主持:第一个环节主要谈数据挖掘相关的知识、目的和作用,第二个环节是挖掘搜索引擎用户行为分析。


1、第一个环节的访谈,时间15:00-15:30
2、第一个环节互动:15:30-15:50
3、第二个环节访谈,15:50—16:30
4、第二个环节互动:16:30-17:30

在每个访谈的中间,安排时间给嘉宾和群友互动,群友在互动的环节针对该环节进行提问。在访谈的最后,安排了1个小时的讨论时间,可以提访谈环节中没有提到的问题。而在访谈的环节,希望大家不要插问题和聊其他话题。

由于牵涉到多群同步,为了保持秩序,提问的问题请通过主持人进行排队,按照次序先后进行互动,在每一个环节的互动中,群友可以对该问题进行互动,发表自己的看法或者针对该问题进行追问。

主持:每一个访谈和每一次的PK,我们不希望有相同的结论,而是希望有更多的思维的火花的迸发。你有一个苹果,我也有一个苹果,你把你的苹果给我,我把我的苹果给你,你和我仍然都只有一个苹果; 你有一种思想,我也有一种思想,你把你的思想给我,我把我的思想给你,你和我就各有两种思想。

主持:数据挖掘好象挺深奥的,好象全是数学统计的知识,对商业有什么用途吗?

KEE:数据挖掘,的确是一个很吓人的名词,因为里面的确牵涉到了太多数学知识和统计知识,也包含了大量的数据库的操作的语句,从这点来说,似乎太深奥了。然而,如果只是数据的统计,往往会没有商业的方向而导致错误的方向。

我们今天的访谈主要分两个部分,一是基础,主要谈一下数据挖掘的一些概念,第二个部分是一个应用案例,通过这个案例,介绍策划过程中怎么应用一些最基本的工具进行相关的分析统计和挖掘,重在过程而不是结果。

我们认为策划者必须能从众多的线索中进行大胆猜测,认真求证,小心决策。求证的过程,即可以从历史资料出发,进行挖掘,也可以预测,通过市场研究调查和市场研究进行求证。怎么让大家认识数据挖掘,这就是我们今天访谈的目的。深入浅出,而不拘泥于某个名词或者某个定义的准确性与否,毕竟我们不是在做学术研究,而是在应用其理论,用到商业策划与网站的具体应用上。

象UE,更多的是进行换位思考,是模拟用户的使用过程,分析用户的明意识,就是我们要什么,我们要怎么样做,是对用户心理的揣摩和分析,预见用户会有什么行为,这种行为是预测的,事实是怎么样还必须通过实践来证实。而数据挖掘就是通过用户的行为途径和以往的历史记录,分析用户的潜意识,从而推断出用户的普遍规律(知识),这种规律是自然存在的。

举个有趣的例子来说, “尿布与啤酒”的故事。为了分析哪些商品顾客最有可能一起购买, WalMart的公司利用自动数据挖掘工具,对数据库中的大量数据进行分析后,意外发现,跟尿布一起购买最多的商品竟是啤酒。为什么两件风马牛不相及的商品会被人一起购买?原来,太太们常叮嘱她们的丈夫,下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了两瓶啤酒。既然尿布与啤酒一起购买的机会最多,商店就将它们摆放在一起,结果,尿布与啤酒的销售量双双增长。


·热门回顾

·最新帖子
作者:冰心雨编辑 删除 引用 第2楼
主持:OK,我们回到正题,我想知道什么是数据挖掘?
KEE:数据挖掘,是从数据库中发现相关的模式。

主持:哈哈,就这么简单?那数据挖掘在网站的应用中有那些方面呢?
KEE:是啊。
我见过最有趣的数据挖掘就是《星座对市场用户的分类研究》http://lady.allnet.cn/astro/faqs/content!xzdfcyhdblxj!c95b0b5e.html

数据挖掘对于网站运营来说,常见的有如下几个方面的应用:
1、 商业规则的挖掘,象市场规划的支持,广告策划,广告投放、市场定位、广告效果监测等。
基于数据挖掘的营销,常常可以向消费者发出与其以前的消费行为相关的推销材料。卡夫(Kraft)食品公司建立了一个拥有3000万客户资料的数据库数据库是通过收集对公司发出的优惠券等其他促销手段作出积极反应的客户和销售记录而建立起来的,卡夫公司通过数据挖掘了解特定客户的兴趣和口味,并以此为基础向他们发送特定产品的优惠券,并为他们推荐符合客户口味和健康状况的卡夫产品食谱。

在零售业应用领域,利用数据挖掘会在很多方面有卓越表现:

1). 了解销售全局:通过分类信息——按商品种类、销售数量、商店地点、价格和日期等了解每天的运营和财政情况,对销售的每一点增长、库存的变化以及通过促销而提高的销售额都可了如指掌。零售商店在销售商品时,随时检查商品结构是否合理十分重要,如每类商品的经营比例是否大体相当。调整商品结构时需考虑季节变化导致的需求变化、同行竞争对手的商品结构调整等因素。

2). 商品分组布局:分析顾客的购买习惯,考虑购买者在商店里所穿行的路线、购买时间和地点、掌握不同商品一起购买的概率;通过对商品销售品种的活跃性分析和关联性分析,用主成分分析方法,建立商品设置的最佳结构和商品的最佳布局。

3). 降低库存成本:通过数据挖掘系统,将销售数据和库存数据集中起来,通过数据分析,以决定对各个商品各色货物进行增减,确保正确的库存。数据仓库系统还可以将库存信息和商品销售预测信息,通过电子数据交换(EDI)直接送到供应商那里,这样省去商业中介,而且由供应商负责定期补充库存,零售商可减少自身负担。

4). 市场和趋势分析:利用数据挖掘工具和统计模型对数据仓库的数据仔细研究,以分析顾客的购买习惯、广告成功率和其它战略性信息。利用数据仓库通过检索数据库中近年来的销售数据,作分析和数据挖掘,可预测出季节性、月销售量,对商品品种和库存的趋势进行分析。还可确定降价商品,并对数量和运作作出决策。

有效的商品促销:可以通过对一种厂家商品在各连锁店的市场共享分析,客户统计以及历史状况的分析,来确定销售和广告业务的有效性。通过对顾客购买偏好的分析,确定商品促销的目标客户,以此来设计各种商品促销的方案,并通过商品购买关联分析的结果,采用交叉销售和向上销售的方法,挖掘客户的购买力,实现准确的商品促销。

2、 栏目的策划和设计,比如那些栏目,那些页面的访问量,广告点击的情况
1)电子商务 从服务器的日志记录的中寻找隐藏的模式信息,运用网络挖掘工具可以自动发现系统的访问模式和用户的行为模式,从而进行预测分析。例如,通过评价用户对某一信息资源浏览所花费的时间,可以判断出用户对何种资源感兴趣;对日志文件所收集到的域名数据,根据国家或类型进行分类分析;应用聚类分析来识别用户的访问动机和访问趋势等。

2)网站设计 通过对网站内容的挖掘,主要是对文本内容的挖掘,可以有效地组织网站信息,如采用自动归类技术实现网站信息的层次性组织;同时可以结合对用户访问日志记录信息的挖掘,把握用户的兴趣,从而有助于开展网站信息推送服务以及个人信息的定制服务,吸引更多的用户。

3)搜索引擎 网络数据挖掘是目前网络信息检索发展的一个关键。如通过对网页内容挖掘,可以实现对网页的聚类、分类,实现网络信息的分类浏览与检索;同时,通过对用户所使用的提问式的历史记录的分析,可以有效地进行提问扩展,提高用户的检索效果;另外,运用网络内容挖掘技术改进关键词加权算法,提高网络信息的标引准确度,从而改善检索效果。

4)决策支持 为政府重大政策出台提供决策支持。如,通过对网络各种经济资源的挖掘,确定未来经济的走势,从而制定出相应的宏观经济调控政策。
签名
 
 
 
 
 
 
 
发帖时间:2007-12-5 21:14:11
作者:冰心雨编辑 删除 引用 第3楼
3、 用户访问习惯的研究。
例如对用户的浏览习惯、用户的网上行为习惯,用户的购买习惯进行分析和研究。金山卓越的购买程序也做了这样一个功能。他们网站上列举了购买了IT书籍的人通常又购买了一些和IT毫无关系的消遣书籍。

4、 网站的访问流程的改进
根据实际用户的浏览情况,调整网站的网页的连接结构和内容,更好的服务用户。

A=>B=>C=>D

A=>D


5、 SEO及关键字的筛选
比如关键字的选择,用户搜索常输入的关键字等,这个部分我们放在第2部分作为例子应用来说。

6、 数据结构及SQL语句的优化
7、 页面规则设计
8、 黑客攻击行为分析及漏洞预防

6-8是技术人员挖掘访问记录的时候,比如,从访问记录中寻找访问量最大的页面,1)首先检查数据库的设计是否恰当,是否增加冗余,减少多表查询?2)页面中的数据库查询语句的设计是否恰当?3)数据库的优化是否到位,如索引建立是否恰当,能否把一些常用的通用的数据放到内存中?4)存储过程和CACHE的设计是否合理?

对于程序员来说,除了优化数据库外,检查那些是存在攻击漏洞的页面也是重要的工作之一。经常有朋友网站被黑,我就是从LOG中找信息,看是从哪个地方进去的,然后做相应的修补工作。服务器被黑,因素很多,和程序的编写有很大的关系。更多的内容请参考《KEE的网站运营观-程序员的要求和责任》http://www.digda.cn/u/kee/archives/2007/119.html

主持:网站的挖掘数据我们可以从那里获得?
KEE:数据的来源1)、可以是自己的服务器的访问脚本(LOG),如缺省安装的情况下,LOG数据一般放在%SYSTEM%/system32/logfiles,或者从“管理工具”-“Internet服务管理器”-“管理WEB站点”-站点属性-“”


从这里可以找到LOG文件放置的位置。这是服务器自动生成的访问记录,可以详细记下访问网站的用户的详细的活动情况。

2)也可以是由第三方提供的访问记录,第三方提供的数据准确性有待核实,仅作为参考的依据,

3)外购或者其他途径获得的监测数据和监测结果。

主持:那数据挖掘的核心技术是什么?能不能容易被网站策划人员掌握?
KEE:在说数据挖掘前我们也背背书,说说一些概念。只有明白了以下的概念,才能深入去做数据分析。相关的主要的概念是关联、聚类分析、孤立点。至于如何进行统计和推导的工作交给专门的数据处理人员去完成就可以了。

1、 关联
自然界中某种事物发生时其他事物也会发生的这样一种联系称之为关联。关联可分为简单关联、时序关联、因果关联。

例如:

如果有许多浏览页都同时链接到浏览页A和浏览页B,则可以认为浏览页A和浏览页B之间具有一定的相关性,如果一个用户访问了浏览页A,则浏览页B对该用户而言很可能是有价值的,从而可以在推荐列表中加上浏览页B。

关联分析目的是寻找给定数据记录集中数据项之间隐藏的关联关系,描述数据之间的密切度。

序列模式与此类似,但它寻找的是事件之间时间上的相关性。 例如:“一个9个月前买了一台PC的顾客有可能在一个月内买一个新的CPU”。

对于两个对象的关联的关联程度可以用两个数学的单词来表达:置信度和支持度。这2个单词是概率的算法,我们不深入探讨具体的含义,大家有兴趣可以去看下概率的书。

2、 聚类分析:把一个给定的数据对象集合分成不同的簇。比如我们常说的市场细分。比如我们把人群可以按年龄段来划分,也可以按收入及经济状况来划分为啃老、小资、中产。又如我们经常分析网站的访问者的来源是国内、国外或者是来源于哪个省份;又如交易最多或者浏览最多的的是那类商品等等。

3、 孤立点:是在数据集中与众不同的数据,使人怀疑这些数据并非随机孤立点,而是产生于完全不同的机制。比如一个人的年龄是999,这类就是出错的数据,可以统计出来,进行修正,这就不是孤立点,而如CEO的工资就比一般员工的工资高出很多,这就是孤立点。这些特例有非常重要的分析作用,例如淘宝刷星的交易的数量和金额、交易的时间集中性总是和正常交易的数量及金额有差异。

那么,作为策划人员,重要的是懂得要求数据分析人员按自己的要求进行数据的分析和推导,得出结论。而我们学习数据挖掘的目的就是为了挖掘其中的关联性和相关的一些商业规律。

主持:那网站运营者应该怎么入手去做数据挖掘?
KEE:其实很多人也用过网站的脚本分析工具。我常常是用以下两种方法交替使用。

方法一、使用现成的脚本分析工具,如Hit List Pro或者WEBTRENDS。
以Webtrends为例:
1. Web 流量分析 (Web Traffice Analysis)

图一

图二

这个是我使用最多,估计也是它这个软件被使用最多的功能了。比较有特点的功能:
a. 可以分析负载均衡器后同一域名多个服务器的日志,它可以把多台服务器的日志合并起来,生成一个域名下的总体流量分析报告。
b. 可以多种选择分析日志文件的时间段,是最近一周还是一个月还是过去七天还是当天等。
c. 分析报告可以选择多种形式。html或者excel等。
d. 有强大的过滤功能。支持日志中多个字段。例如File,Referrer,Entry Page 等。
e. 自己有报告数据库,可以根据每天的报告产生每月的报告,以次类推。
f. 可以分析网站的广告页面和图片访问情况。需要定制。
2. 网站链接分析 (Link Analysis)
可以给出很详尽的关于链接的分析报告,最基础的就是断链报告。
签名
 
 
 
 
 
 
 
发帖时间:2007-12-5 21:14:20
作者:冰心雨编辑 删除 引用 第4楼
3. 监控报警功能 (Alerting/Monitoring)
服务器的监控和报警功能。可以对服务器上诸多的服务进行定制的监控,并在发生问题时,启动预订的报警措施。
4. 其他功能
作为一个强大的Web网站服务类工具,它还有代理分析报告(Proxy Analysis),流媒体分析报告(Streaming Media)。

Commerce Package是为那些需要优化自身的交易主动性的企业设计的。

 使用WebTrends的5-point模拟情景分析来判断什么页面可把客人带领到购物车, 以及什么页面会令客人退出网站;
 快速分辨销售额好的产品,提高销售率;
 令WebTrends产品下钻式分析清晰明了,并能比较存货里不同类别产品的销售表现;
 以统一的标准,即平均定价、收益情况、订单数量来全面地衡量所有产品的销售表现,并输出适合您的生意特点的分析结果;
 判断哪一个商业营销和搜索关键词(包括自然搜索和有偿搜索)能带来最大的销售额,以及在每一次商业营销和访客搜索中,您都卖了哪些产品;
 判断哪些客户群能为您的企业带来最大的收入;
 指出能最有效地带来新客户的产品和商业营销活动;
 判断哪些产品和商业营销活动最能推动客人再次购物;
 测量站内搜索怎样推动产品销售,通过对那些“无法找到符合结果”的搜索的关键词的分析,知道顾客的需要。

方法二、自己使用SQLSERVER,ACCESS,FOXPRO,EXCLE,和SPSS,记事本联合进行分析。深入到每一行的记录中,可以强烈地感觉到你是在和每一个访问者在对话,你可以强烈感觉到他们的呼吸及点击鼠标的动作。通过抽取每一个个案,尾随他们的行踪,总是比用软件汇总出华丽的图表感到更亲切和更懂得他们是怎么想的。其实,作为策划来说,了解其中的总体规律性的所要掌握的东西并不会太多,一个快速和多页面打开文本文件的文本编辑软件和SQLSERVER的查询分析器,及一句简单的SQL-SELECT就可以去和浏览者进行心灵对话。


主持:听说你也准备了一个详细的PPT来演示怎么样进行初步的挖掘,这个我们互动完后下一个环节再进行吧。呵呵,我们先休息一下好了,先进行互动环节的。



主持人:我们现在进入第2个环节的访谈。你这次演示的数据是从那里来的?
KEE:这个数据是来源于搜狗实验室对外提供的数据,下载后一共有2.24G的RAR文件,大家也可以去下载的。http://www.sogou.com/labs,用EMAIL地址注册下,会立刻给出一个临时的FTP用户名和密码,大概1-2天有效,没下完下次可以再用邮件地址注册一次。
里面提供了用户查询日志、互联网语料库、链接关系库、互联网词库和、文本分类数据、中文词语搭配库,然后倒进SQLSERVER里面去,象用户查询日记,是06年8月的,大概一天有80万-100万条的访问记录,用EXCLE无法处理,所以先倒进SQLSERVER里面,然后按自己的需要,进行筛选,倒出到EXCLE里面,用EXCLE的分类汇总和数据透视表来完成其他的工作。
我喜欢这样做,因为不同工具有不同工具的优势。或者也有可能我不精通某样工具,只好几样组合来用。
主持人:呵呵,从那里可以下到你的PPT?能不能详细解读下你的PPT?
KEE:

先声明一点:所取数据仅为某一小段时间的数据,并不能证明结果具有广泛的关联性,今天只是为了演示而取了4天的数据,并不能说PPT里面的东西就是结论。

今天做的个案分析是“火车票”。大家可以看“搜索引擎用户行为分析
综合表述”

一、 先用火车票进行模糊查询

二、 然后把查询过火车票的人的使用记录全部检索出来,倒出到EXCLE

三,1)可以见到关键字的使用比例“搜索关键字比例”及详细的用户查询的关键字的内容列表。

有趣的是,在搜索引擎中,用户喜欢使用句子来查询,里面的检索比例可以为我们提供网站策划及SEO的第一条线索

2)使用SOGOU的常用词搭配和互联网词库搭配,可以最快知道用户经常查询的关键字。

3)通过“火车票”的检索,可以知道,复合词的查询的比例占了访问的大部分。

这样就有两条思路:1、是主攻热门词汇,购买左边排名或者应用SEO规则,做到左边第一
2、泛关键字:抓住一些冷门关键字的,做到第一位,冷门的比较冷,很容易做上去,所以不能花太多的时间在上面。

4)、“寻找关联词-筛选”我们试图筛选关键字的关联关系,看用户在检索某个关键字的时候,是否有习惯会换用第2高频词继续检索

首先我们先排除一些孤立点,访问最多次数的用户,该用户的数据可能为结论带来偏差,所以进行排除。

我们首先怀疑,在用户访问记录的高频词是否有关联关系,我们先按此进行检索。
然而结果表明,用户没有使用高频词之间的关联关系,这个结论也有可能因为数据太少有偏差。

我们意外地发现用户找不到火车票的同时,会有找“飞机票”的弱关联。

5)、“用户通过搜索引擎访问量”,我们先对关键字的排名对用户的影响

6)、最后我们抽取了3个用户,来了解他们访问搜索引擎的用户行为习惯

大家可以详细看下,有意思的是某用户使用百度的MP3检索,每次的入口居然是SOGOU。

排名第一的基本上被用户点击,而用户的第二次点击,有可能是搜索结果的页面的其他记录而非第2条记录
签名
 
 
 
 
 
 
 
发帖时间:2007-12-5 21:14:32
第1页 共1页 共3个回复     <<    >>    
快速回复
  • 支持UBB,HTML标签

  • 高级回复

  • 操作选项:评分 加精 解精 奖惩 设专题 设公告 解公告 固顶 总固顶 解固顶 结帖 解结帖 锁帖 解锁 移帖 删帖
      首页 | 购买指南 | 虚拟主机 | 特色介绍 | 下载中心 | 支付方式
    Copyright 2004-2008 BBSGood.com Powered By: BBSGood.Speed Version 5.0
      咨询电话:0575-85513832、0575-85513825(传真)、7*24小时咨询服务:13606552007 不良信息举报中心 浙ICP备05029817号
      业务QQ:38958768、客服QQ1:415896239、客服QQ2:343896043、MSN:jccsxx@hotmail.com