电脑技术学习

网站分析度量、意义以及不为人所知的(1)

dn001
【前言】网站分析的度量是网站分析入门的课程之一。我看到很多朋友提出了与之相关的很多问题,说明这个领域大家还是最想了解,也最拿捏不透的。准确把握度量,才使准确把握网站分析成为可能。

【正文】

今天的话题回到度量,因为度量是网站分析的骨骼,所谓皮之不存毛将焉附,没有度量,网站分析就成为不了一门科学。度量也是最多朋友们问起的问题,例如下面这个问题:

宋星老师:

有个困惑已久的问题。在GA里面的跳出率和退出率的问题。

他们的含义都知道:但是当他们同时存在时,主要看哪个数据比较好?

如果是单独出现时还行,但是在GA里面 是同时出现的。

这是一个好问题,体现了非常棒的探究精神,以及直击问题本质的敏锐观察。类似的问题太多了,所以,重新发一系列帖子是必不可少的。现在开始,我们从最基本的,一些容易让我们混淆的度量概念开始。同时这篇文章不会再重复过去的内容(关于度量的内容,请大家看博客的网站地图),而只是画龙点睛,说一说大家最该了解的东西。

最基本的流量度量也有陷阱

Page view,visit和visitor是三个最基本的流量度量,这三个度量按照监测难度来区分是这样的:

Visit 》 Visitor 》 Page View

原因在于:

Page view只是一个简单计数,只是页面中的网站分析监测代码被运行了一次,仅此而已。它最简单。

Visitor同样是一个简单计数,是网站分析监测代码识别了一个不同的cookie,或是一个不同的ip(对某些工具,没有cookie的时候,用IP分辨visitor)来到了网站而已。但visitor肯定比page view复杂,因为它包含了对cookie或者IP的记录和判断。

Visit代表某一个visitor一系列的网站访问动作,每个动作之间的间隔不超过特定的时间(例如不超过30分钟)。它意味着判断几个事情:(1)要有一个visitor,如果判断不出visitor,visit也就没有意义;(2)要判断page view或者其他网站分析工具能够识别的网站访问动作;(3)要识别动作与动作之间的间隔时间。所以visit的判别最复杂。所以,我们在最早的用log file进行网站分析的时候,是没有非常明确的visit的概念的,只有session的概念。

那么,陷阱在哪儿呢?

Visitor和page view没有什么陷阱,它们俩是简单的计数度量,触发了就触发了,记录下来即可。可是visit存在陷阱。这个陷阱在于如下几种可能:

我在A网站访问了20分钟,第21分钟的时候从A网站(比如CWA网站:http://www.chinawebanalytics.cn)的链接(这个链接连接到B网站)跑到B网站,然后在25分钟的时候,又从B网站的链接(这个链接指回A网站)回到A网站。这个过程中浏览器窗口并没有关闭,那么这个过程A网站有几个visit?

我在A网站访问了20分钟,第21分钟的时候关闭A网站的页面,然后打开一个新的浏览器窗口,然后在25分钟的时候又打开新窗口输入A的网址回到A网站,这个过程中网站A有几个visit?

我在A网站访问了20分钟,第21分钟的时候关闭A网站的页面,然后打开一个新的浏览器页面,即Tab(注意,浏览器没有关闭),然后在25分钟的时候又打开新Tab输入A的网址回到A网站,这个过程中网站A有几个visit?



图:Tab,伟大的Tab

我不想在这个里跟大家讨论这个三个问题的答案,欢迎大家在留言中讨论,要提醒的一点是不同的网站分析工具对于这些过程的定义都不太一样。所以,如果我们要选择一个网站分析工具,我们最好让供应商告诉我们他们对于这些基本度量的基本定义和监测方法是什么。

不过这三个问题直接回答了我们下面的问题:

(1)为什么Omniture SiteCatalyst监测到的visit只有Google Analytics的80%啊!

(2)为什么Google Analytics的数据和我服务器日志的数据相差那么远!

如果它们的数据一样我才会觉得奇怪呢 !按下这些不同工具的不同区别不表(同类工具有些过大的区别当然可能意味着监测实施的不正确)。我想说的是,我们应该至少明白visit其实是一个非常复杂的度量,它绝对不像我们想象的那样简单。

因此,我们走出对这个度量的一般性理解,而进入一个根本性的问题――为什么要设置“visit”这个度量?为什么我们不用page view或者visitor就可以了?

如果你能把这个问题想清楚,我想才算真正理解了visit。



图:It’s not as easy as you thought!

答案其实很简单――狭义的网站分析(Web Analytics)是分析什么的科学?是分析网站访问者行为的科学,因此落脚点是行为。所以,只有visitor肯定不行,visitor不附加上与之对应的行为,没有意义。但是,如果行为是孤立的,没有来龙去脉,同样意义不大,所以只有page view同样不行。Visit是为此而建立的,是为了衡量一个visitor的一系列体现为page view的行为。它是一个桥梁,让visitor和page view建立关系,也让访问者和行为建立联系,并以数据的方式进行表达。

听起来这是多么艺术的一个过程啊。这就是网站分析的美。如果你细细平常一些为什么背后的为什么,你会发现原来一花一世界。

即使是基本度量,也并非都有统一的定义

什么是质量,什么是长短,什么是速度,这些现实生活中我们经常用到的度量都有世界统一的标准的定义和单位。可是,在网站分析的世界中,并不是所有的度量都有统一的定义。

这是因为网站分析还是一个非常新的学科。网站分析这门学科的名字最初实际上也是不确定的。最早,人们用e-metrics(e度量),之后又有用web metrics(网站度量)的,直到最后越来越多的人开始用web analytics(网站分析),这门学科才有了正式的名字。

尽管学科名字被确定下来,但是学科内的很多度量还有这不同的解释。例如bounce rate(蹦失率),这个度量至今仍然存在两种以上的常见解释。除了解释的不同,不同的监测工具对于一些度量的算法也存在差异,例如上面说过的,对于如何辨识visitor,不同的工具就有不同的算法,visit也是如此。

为了解决不一致产生的矛盾,部分聪明的网站分析工具提供商会提供一些能够自定义度量的功能,可以让用户更加灵活的根据需要调整度量的定义和尺度,这客观上极大的增加了网站分析的适应性,产生了很好的效果。


但是,定义不一致毕竟不是一件好事,尤其是对于一些基本度量。因此业界的一些组织也在致力于建立一些国际标准,这些组织包括:英国发行量审计局(Britain’s Audit Bureau of Circulation,www.abc.org.uk),网站标准联合产业委员会(the Joint Industry Committee for Web Standards,www.jicwebs.org)以及网站分析协会(the Web Analytics Association,www.webanalyticsassociation.org)。

对于不同的定义,最终可能的结果是,某一些被最多人使用的度量定义将成为业界约定俗成的定义,被最终成为实施标准。

但,千万别觉得一个网站分析工具的定义就代表了网站分析业界,那也许只是无数种定义和规定中的一种罢了。关键,是要理解这些度量存在的目的是什么,以及它对应的网站在现实世界中的状态是什么。

最基本的度量构成复合度量

最基本的度量非常简单,不足以描述更复杂的网站浏览行为,因此人们开始引入复合度量。所谓复合度量,就是多个基本度量应用四则运算组合而成的新度量。比如bounce rate,比如exit rate,比如PV / visit。

复合度量给新手朋友们带来了许多困扰。下面的文字希望能够解决你们的困扰。

首先看看Bounce Rate。Bounce Rate被称为跳出率(Google Analytics),或者蹦失率(China Web Analytics),你可以选择任何一种叫法,大家应该都能听得懂,我喜欢我发明的后者。

Bounce Rate一定要记住以下几点:

Bounce Rate不是衡量所有页面的度量,而是衡量所有页面仅仅作为landing page时候的度量。

它是一个特殊的度量。它可以衡量整个网站的表现,也可以用来衡量某个页面作为landing page时的表现。即,它既是一个网站级的度量,又是一个页面级的度量,关于这个,本文的后面再讲。

不同的网站分析工具对它的定义不同。

它的公式不重要,它的目的和含义更重要。

现在我来谈谈它的目的是什么。

Bounce Rate的目的非常明确,即帮助人们搞清楚访问者进入你的网站的第一印象如何。请注意,是第一印象,是从网站外部进入网站的第一印象。

 在这个目的之下,人们开始想,该怎样用一个度量来描述它呢?人们最先想到的,是用你进入网站开始到离开网站的时间间隔。比如,你来到腾讯网,你随便看了几眼,然后啐了一口口水说,“草,垄断”,然后就关了窗口,整个过程可能就5秒钟。这说明这个网站给你的印象不佳。所以,用时间来描述真是一个好主意。这是人们最初设想的方法,也是Avinash先生最初在他的博客上提倡的方法。

可是这个方法,存在一个很大的问题,那就是时间问题。你可能讨厌腾讯网,但由于网页tab的存在,你可能并不急于关闭它,而是打开一个新的网页,例如打开360杀毒的首页,津津有味的读起周鸿先生抨击腾讯网的“檄文”,然后半个小时后才发现怎么“恶心的”腾讯网还开着,这才关掉它。这个时候,时间来判断就存在偏差。另外一个很大的问题是,网站分析工具对于时间的监测和我们真实的在网页上浏览的时间并不可能完全一致。因此,时间方法来衡量网站第一印象,执行起来挺难。

但是人脑总是聪明的,虽然站在宇宙尺度上这样的聪明不过是浮云,和凤姐的美貌程度不见得能有多大差异,但我们并不畏惧困难。因此,另一种想法诞生了――如果你进入这个网站的第一页就觉得讨厌,那么你不太可能花费时间继续浏览这个网站的其他页面,这就使bounce rate诞生了。bounce rate衡量的就是――只访问一个页面的访问(visit)占总体访问(visit)的比例,或者是只访问一个页面的访问者(visitor)占总体访问者(visitor)的比例。至于何种数学定义并不重要,关键是,人们总算找到了一个跟时间无关的,而且容易计算的方法来衡量网站的第一印象。


这就是bounce rate的故事,所以bounce rate不用来衡量所有页面的所有访问,而只是用来衡量页面作为landing page时候的访问印象,因为landing page才是网站带给访问者的第一印象。所以,你也应该明白:一个网站的每个页面都有可能是landing page(因为搜索引擎能够把流量带到你的网站的任何一个页面上),但相对于不同的visit,每个页面只有一部分可能是landing page――当且仅当这个visit进入网站访问的第一个页面是这个页面时。

Exit Rate呢?则是另外一个故事。Exit Rate衡量的是人们离开网站的行为。人总要离开一个网站,虽然我想吉尼斯世界纪录应该统计连续上网时间最长的人,但这个人毕竟也是会死的,所以即使他能100年持续访问一个网站,他也终须离开他心爱的网站。再说,cookie也没有那么长的时限。因此,人们更多的从网站的什么地方离开这个网站成为大家关心的问题。

Exit rate就是衡量这个事情的,说白了,exit rate就是一个网页作为网站出口的几率大小。exit rate=87%,就说明,经过这个页面所有的访问中,有87%的可能性从这个页面离开网站。这个网站当然要承担不能“留住”访问者的责任。

这样看来,bounce rate和exit rate两个度量被发明的初衷是没有什么关系的,它们各自衡量各自的,虽然很像,但其实逻辑完全不同。我刚刚学习网站分析的时候,我也很疑惑,拼命想搞清楚这两个度量的关系。现在看来,搞清这两者的关系其实没有多大意义,搞清楚什么时候该用它们中的哪一个才更有意义。



所以,我们不要让复合度量在数学上弄糊涂我们。我相信Google Analytics被发明出来的时候没有想到人们最后会那么精确计算这些复合度量,所以我们才会现在发现Google Analytics上有那么多数字对不拢的情况。但是,这根本不妨碍我们分析,因为在什么情况下该用什么我们早已了然于心。

计数度量和复合度量

  现在,总结一下什么事计数度量,什么事复合度量。计数度量(count)是指不需要计算的,以记录个数、次数、时间长短等为目的的一元度量。page view,visit,visitor都是计数度量,overall time on page,也是计数度量。计数度量不可以再拆分。

复合度量(calculate)是指由多个计数度量进行公式运算(一般是四则运算)组合而成的度量。例如,我们常用的衡量访问者访问页面广度的度量――page view/visit,即是用page view除以visit而得来。

计数度量和复合度量有涉及到如何通过数据表达的问题。通常,网站分析对于度量具体数值的表达都是用计数的方法展现的,例如,网站在5月份的visit是34,567个,访问者是23,456个云云。计数度量常常都对应其数据报告的计数表达。

对于复合度量,同样也用计数报告来表示,例如网站的bounce rate是13.3%。计数报告是最常见的网站分析报告。下面的报告就是典型的计数报告:



另一种报告被称为分布报告,记录了不同统计维度的分布情况,例如图D就是一个典型的分布报告,标明了不同路径长度所对应的visit的数量。

下图也是一个典型的分布报告,所展示的是不同时间长度的访问的数量分布:



计数报告和分布报告都是网站分析工具常用的数据展示形式,在制作网站分析报告的时候,我们也同样经常使用这两种形式。可以说,计数和分布是我们每天都要打交道的最常见模型。

好了,今天就谈到这里。大家如果有什么想法,欢迎多多留言!最后分享一个电影――《第三十六个故事》是台湾的文艺小品类型的电影,文艺腔调十足,但我觉得够给力,想起了我以前开餐厅的岁月,推荐给喜欢“网站分析在中国”的女生们――当然,最好你们也能顺带喜欢我 。

作者:宋星

文章来源:http://www.chinawebanalytics.cn/metrics-and-its-back-story-1/