所谓说着无心,听者有意。
前提是:一位网友发现了某中型电子商务网站的BBS的会员列表页是打开的。
过程是:这位网友将此论坛当作不注重用户隐私的反面教材而写进了软文里。
巧合是:这个论坛的大部分账号是用Email注册的。
疼心是:论坛的管理员直到大概一个月后才解决这个漏洞。
云飞的技术含量不是很高,所以用迅雷(xunlei)获得了1万个包含Email的网页文件。因为网页用的是统一的模板,云飞弱智的无限次使用Dreamweaver的查找和替换功能将多余的html标签删除掉。
这个时候我接触了“正则表达式”,从此开始崇拜正则式的伟大。有了正则式这个利器,数据处理和数据统计变得异常轻松。
在对这近16万Email地址进行统计分析 的过程中,发现一些趣事。
共提取到“*@163.com”4万4千次;“*@126.com”2万次;
“*@sina.com”1万次;“*@sohu.com”4千次;
“*@QQ.com”3万9千次;“*@yahoo.com系”1万2千次。
以上数据说明QQ邮箱的势力不可小视,几乎就要撼动网易邮箱的霸主地位;也说明4大门户里,搜狐的邮箱并不大么受人喜爱;还说明yahoo邮箱处于“瘦死的骆驼比马大”的阶段,尽管yahoo中国几易其主,但并不妨碍大家使用以前为求国际化而注册的雅虎邮箱。
从数据还提取出9千个MSN号(hotmail邮箱),4千个Gtalk号(Gmail邮箱),1千个电话号码(139邮箱),当然,还有接近4万个QQ号(QQ邮箱)。
如果采用’*196?’,’*197?’,’*198?’,’*199?’来分别匹配出生于60年代、70年代、80年代、90年代的用户。可以得到200个60后,900个70后,接近5000个80后,和700个90后。
另,可以提取到完整出生年月日的Email数量为2000个。邮箱名中包含完整生日的,只能说明该用户是个电脑菜鸟,因而其邮箱密码也可能很简单,比如可能就是他们家的电话号码或车牌号。
当然还有很多邮箱名里面包含如2003、2004、2008之类的年份,这说明的是该邮箱可能注册于2003年或2004年,或是这一年对他由特别的含义(如2008,奥运)。
由于重名的关系,很多人的邮箱名中使用了连字符(_)或减号(-)。约有1万3千人使用的是连字符,而使用减号的只有3千5百人。可能连字符更符合国际习惯,最可能的是有的注册商只允许使用字母、数字和连字符来注册。
甚至我们还可以从中找到200位老师,因为他们使用的是edu.cn结尾的邮箱;50位政府官员,他们用的是gov.cn结尾的邮箱,其中一位甚至还是我的水利同行,因为他来自水利部@mwr.gov.cn。
以上数据只具备统计学和人口学意义。
作者 wainshine 的个人空间 本文仅代表作者观点,与站长网立场无关.
下一篇 站长要学会如何选择域名购买域名