从拖库门看密码规律

@henices

  • 摘要 : 本文从多个维度分析真实泄漏的密码,总结一般的密码规律, 分析密码规律的形成原因。
  • 关键字: 拖库门,密码门,密码规律

1. “拖库门”事件

2011年12月21日,随着CSDN用户数据库的泄漏,一场前所未有的“泄密风暴”席卷整个中国互联网。随着媒体铺天盖地的报道,越来越多的细节开始披露,越来越多的网站被卷入其中,但是我们发现,太多的媒体报道过多关注了事件的“故事性”和“娱乐性”,却少有人关注密码泄漏后面的东西。”拖库门“事件始末:

  • 1月9日,奇虎360,收集用户私隐数据泄漏。
  • 1月5日,2012年新浪微博用户密码泄露漏洞。
  • 1月1日 00:12,珍爱网,号称3400万会员,两次泄漏1600万会员信息。
  • 12月31日,多数网友在互联网下载泄漏包,中毒人数增多,希望大家慎重下载。
  • 12月31日,网友报料,多家银行信用卡信息泄漏,本站未取得资料。
  • 12月30日,淘宝2200万用户邮箱泄漏。
  • 12月29日,太平洋数据再次泄漏,此次2514153用户数据。
  • 12月29日,广东400万出入境用户信息疑遭泄露.
  • 12月28日,太平洋数据泄漏,共2930311用户数据。
  • 12月28日,圆通被黑,泄漏数据未知,
  • 12月28日,新浪教育点评网被黑,泄漏数据未知,管理员已处理!
  • 12月28日,12月28日,当当网,凡客,卓越用户信息泄漏!本站可查询!
  • 12月27日,京东商城用户信息泄露 wooyun已经公开!
  • 12月27日下午,千脑网盘用户名密码数据泄漏。
  • 12月27日,YS168网盘用户名密码数据明码泄漏。
  • 12月27日,766再次出现十多万用户名密码数据明码。
  • 12月26日,dospy塞班智能手机网975691用户数据泄漏,用户名,密码及邮箱明码。本站已随机抽取测试登陆成功。
  • 12月26日,再现17173及178帐号密码,UUU9.COM密码帐户在其中。
  • 12月26日,ispeak.CN泄露帐户信息 已验证!。
  • 12月25日,myspace被暴库,迅雷已删除,电驴还有下载。
  • 12月24日,事态升级天涯疑泄露4000W用户资料。
  • 12月23日,经过确认 CSDN 泄露 多玩 泄露 梦幻西游帐户通过木马泄露 人人网部分泄露。
  • 12月22日,中国各大知名网站全面沦陷….涉及范围甚广,泄露信息涉及用户相关业务甚多…. 一场席卷全中国的密码安全问题爆发了…. 。
  • 12月21日晚21时左右,网络上出现CSDN,明码保存用户名密码的RAR下载 。

可以发现这次密码泄漏事件的规模和影响都是空前的, 其中很多都是大家平时耳熟能详的知名网站,网民个人信息隐私遭到了极大的挑战。目前互联网上的绝大多数网站都是使用用户名和密码进行认证的,知道了用户名和密码就可以冒用网民的身份使用网站提供的各项服务,个人隐私将毫无密码可言。

拖库,意思为从数据库里导出数据。专业的数据库人员喜欢用DUMP DATABASE 来描述这一过程。而拖库则应该是利用漏洞,通过网络从数据库中获取数据。

”拖库门“事件发生后,互联网上暴发了改密码的浪潮,从某种意义上来说这是一种好事,给人们提个醒,安全还是至关重要的。希望这个阵痛能给广大互联网工作者和广大网民带来一些感悟,如果能达到这个目的的话,我觉得”拖库门“这个历史事件将会变得很有教育意义。然而,大多数网民还是捧着看热闹的心态看着这个事态的发展,各大媒体也是热衷于哪个厂商承认密码泄漏,哪个厂商不承认密码泄漏的文章来吸引广大的网民的眼球。

本文尝试从分析密码规律入手,希望让不太安全的互联网能够变得更加安全一些。

2. 数据选择

”拖库门“事件泄漏的密码数量很大,但是很多数据无法用于统计。有相当大的一部分数据只是选取了破解出了明文密码的数据,还有一部分数据密码是hash,这些数据不能很好得反应真实的比率,需要剔除。本文选取了几份相对完整的,密码为明文的数据进行分析。鉴于中国的国情,去除了”五毛党“等水军的数据,去除了明显有问题的数据。分析的结果和选择的数据是紧密相关的,实际的情况和本文分析得结果一定存在差异,但是从整体上和趋势上来看应该是比较一致的。文中数据使用的统计工具为sed和awk。

3. 数据分析

本文将选取几个有参考价值的维度对密码进行分析,这几个维度分别是:

  1. 密码长度
  2. 字符类型
  3. 字符组成

3.1 密码长度

首先我们关注的是密码的长度,根据统计结果6到15位的密码的数量已经占到密码总数的98.7%, 而6到10位的密码的数量占到了密码总数的82.2%, 造成这一结果的原因是大多数网站密码的密码策略。大多数网站密码策略要求的最小密码长度为6位,因此除了极少数早期网站,小于5位的密码已经是很少了。而从图1.2的统计结果可以发现随着密码长度地增加,密码总数整体呈下降趋势。大多数人还是比较懒惰的,选择了最小的6位密码,密码长度大于8位后的密码总数呈急剧下降趋势。

3.2 字符类型

其次我们来关注一下组成密码的字符类型。在这里我们把字符类型分为下面几类进行统计:

  • 数字字符 (0-9)
  • 字母字符 (A-Za-z)
  • 数字字符+字母字符 (0-9A-Za-z)
  • 其它字符 (特殊符号、非ASCII字符)

使用纯数字字符作为密码的达到了57.7%,使用全字母字符作为密码有9.7%,而使用数字字符和小写字母字符作为密码的有31.7%。前面这个三种总数达到99%, 只有1%的密码使用了特殊符号字符和非ASCII字符作为密码。值得一提的是使用全小写字符作为密码有9.3%,已经占据了全字符密码的95.9%。人们喜欢使用数字作为密码也是有原因的,人们在日常生活中银行密码,电话密码等都是使用数字,全字母键盘也是最近几年智能机的兴起才得到普及,由于输入设备的限制,纯数字密码在以前几乎是唯一的选择,所以人们很习惯于使用数字密码。

3.3 字符组成

这里我们统计了密码中所使用字符类型的数目。统计的字符类型为:

  • 数字
  • 大写字母
  • 小写字母
  • 特殊符号

有67%的密码只使用了一种字符类型,有29%的密码使用了二种字符类型,使用三种字符类型以上的密码只有4%

3.4 密码规律

下图统计了使用了不同字母前缀数量的密码所占的比例。相对来说分布比较均匀,没有明显的变化趋势。使用3个字母前缀和6个字母前缀的密码最多。三个字母前缀已经可以表示一定的含义,比如汉语拼音的姓氏, qiu,cao,guo,姓名的首字母缩写,王小明可以写成wxm,简单好记。

3.5 邮箱分析

下图展示了密码所使用的邮箱,可以看出使用最多的国内邮箱为163, qq和126,使用最多的国外邮箱为yahoo,hotmail,gmail。

3.6 其它有趣的

根据分析,国人在设置密码时,喜欢使用几部分有意义的片段。这些片段都和大家的日常生活有紧密联系,比较常见的密码片段有姓名、地名、生日、手机号码等,也有使用键盘按键和根据发音设置的密码。下面统计了几个常见片段的使用情况。

密码 top10

几乎所有分析密码的文章都会有一个top 10 弱密码,这里也贴出统计后的结果。(根据出现次数的多少做降序排列123456 使用的人最多)。从统计结果中可以发现top 10的弱密码为清一色的简单数字密码。

  • 123456
  • 123456789
  • 111111
  • 12345678
  • 000000
  • 123123
  • 11111111
  • 5201314
  • 123321
  • 666666

生日密码

很多国人喜欢使用自己的生日作为密码,或者将生日作为密码的小片段,有6.6%的密码中包含生日(实际和生日相关联的密码比率应该比这个统计的数字大,这里只统计了比较完整的生日,比如19111111)。出生对每个人来说都具有比较重大的意义,基本上人人都能够记得自己的生日,因此这个比率不小,典型的密码为:

  • xhj19870909
  • 1984123

手机密码

手机作为当代人最重要的通讯工具,给生活带来了很大的便利。密码中包含手机号的密码比率占到了4%

爱情密码

感情是生活的重要组成部分,对于上网的年轻人来说,很多都处于恋爱的年龄,喜欢在输入密码的时候抒发感情,有3.8%的密码和感情有关系。这些密码都比较有趣,比如说:

  • zhangxin520
  • Lostlove

键盘位置密码

这类密码充分说明了人们的懒惰性,这类密码完全和键盘位置相关,方便输入和记忆。这类密码的比率占到了密码总数的5.3%,下面配上一幅图来说明这类密码。

上图中黑色粗线轨迹为常用的键盘位置密码,比如说1qaz2wsx

与用户名的关系

很早就有人研究用户名和密码的关联性,比如说大名鼎鼎的的密码破解软件John的“single crack” 模式,就是通过研究用户名,通过规则生成密码。这类密码最常见的就是使用和用户名一样的密码。密码中包含用户的密码占总数的5%

4. 总结与建议

从文中统计的数据可以发现,网民使用的密码普遍强度不够,喜欢使用单一字符的密码和数字密码,一旦数据泄漏很容易被还原成明文。

密码是个人信息安全保障的一道屏障,一定要加强保护。密码保护的第一要诀是:天下密码唯长不破,一定要使用长密码。其次需要增加密码的复杂度,使用多种字符组成密码。另外在日常生活中需要养成良好的密码习惯,作到以下几点:

  • 密码分级
  • 定期更换
  • 多重认证

密码分级的意思是,根据重要程度使用不同的密码,重要程度越高,使用越复杂的密码。这样可以在一定程度上保证密码泄漏后,重要程度高的信息不受影响。定期更换的意思就比较清楚了,在一定的周期内更换所有的密码。

但是即使做到了密码分级和定期更换也不是万无一失的,如果网站提供多重认证的功能,强烈建议使用。手机令牌就是一种比较常见的多重认证机制,在验证密码后还会给你的手机发送一个验证码,只有验证码也输入正确才能登录网站,这样就安全多了。密码和手机同时落到同一个黑客手中的几率还是很小的。

“拖库门”事件确实给我们敲响了安全的警钟,提醒我们要时刻注意自己的密码安全。相信以后还有可能出现更多的“拖库门”,而更多“拖库”则可能在暗地里秘密进行,如何保障自己的密码安全值得我们所有人思考。网站维护和开发人员则更应该把保护用户信息安全作为自己重要的责任,加强网站安全建设,最大程度地保护用户的信息资产安全。

参考资料