安全社区

黑盾云安全社区,与你一起分享安全领域的知识与智慧

解密千万密码:透过密码看人性(上)

安全研究2015-03-26 16:39:47 4653次围观



对于密码,我们已经知道了不少。比如,多数密码短小、简单、且容易破解。但我们对一个人选择某个密码的心理原因却所知甚少。在本文中,我们分析了包括企业CEO、科学家在内的1000万人们的密码选择,来看看密码背后所揭示的意义。

1000万个小窗口

你脑海中浮现出的第一个超级英雄是谁?从1到10你首先会想到哪个数字?最后一个问题,你会选择哪种鲜艳的色彩?快速想出答案,然后将它们组合成一个短语。

现在,轮到我们猜测这个密码了。

是Superman7red?不对不对。那是Batman30range?如果我们都能正确地猜到每个问题的答案,那是因为人类是可预知的。而这恰 恰就是密码存在的问题。我们在选择这些密码时确实很小心谨慎,但跟已成产业规模且特意构建的密码破解软件相比,未免小巫见大巫。比如HashCat可以在 一秒时间内猜测30万次密码(次数取决于哈希方式),因此即使你的密码是Hawkeye6yellow,也迟早会被破解。

密码之所以经常会被猜中,是因为我们很多人会想到显而易见的词语、数字并将它们简单组合。本文探索了这个概念,并借此了解当人们以特定的顺序组合词语、数字及(希望如此)符号时,大脑是如何运作的。

我们首先选择了两个数据集进行分析。

两个数据集,几个说明

第一个数据集我们称之为“Gmaildump”,它是2014年9月出现在俄罗斯比特币论坛上的500万个凭证。这些凭证似乎是Gmail账户(有 一些是Yandex.ru),但经过进一步的调查发现,虽然其中的邮件地址多为有效的Gmail地址,但大多数明文密码或者老旧不再被使用或者密码跟邮箱 地址不匹配。但WordPress.com重设了10万个账户并表示还有60万个账户存在风险。尽管这些数据是在几年时间里通过多种方式从多个地方收集起 来的密码,但对于我们的学术研究来讲,丝毫没有问题。而且这些密码曾被Gmail账户拥有者使用过,即使不是他们自己在使用,并且鉴于98%的密码不再有 效,我们可以安全地一探究竟。

我们利用这些数据集回答一些人口统计学的问题(尤其是与密码选择有关的性别及年龄问题)。我们从500万个邮件地址中提取出了包含名字及出生日期的 地址。比如,如果邮件地址是John.Smith1984@gmail.com,那么我们就会解读为男性,出生于1984年。我们从500万个地址中解读 出了48.5万个性别、22万个年龄。这时候,我们就应该想一个问题,“这些将名字跟出生日期包含在邮件地址中的人会选择跟别人不同的密码吗?”因为从理 论上来讲答案有可能是肯定的。我们稍后分析。

如下,我们按照出生日期跟性别对用户进行了分类。

22万被攻陷凭证(按出生日期分类)



48.5万被攻陷凭证(按性别分类)

Gmail dump显示,或者至少是将名字跟/或出生日期包含在邮件地址中的人群多为80后男性。这可能是因为这些被攻陷网站的人口概况导致的。在这个dump中查 找包含“+”标志(Gmail用户用来追踪站点对邮件地址的用途)的地址后发现,大量凭证来自File Dropper、eHarmony、以及Friendster。

我们的多数结果是通过第二个数据集收集到的,详情可参见安全咨询Mark Burnett的网站。这个数据集由100万个密码组成,它们是在几年的时间里从网络中搜刮到的。

我们不会花费太长时间来说明这个数据集的基础概念,因为之前已有不少人做过很多次这种工作。让我们看一下这1000万个数据中最为常用的50种密码。然后我们再讨论一些更加有趣的东西。

50种最常用的密码


我们可以发现,或者早就知道,这些最为常见的密码都是网站要求人们创建密码时,瞬间映入脑海的选择。这些密码极其容易记住而且对于字典攻击来说简直是小菜 一碟。不过,现在使用这种密码的人比之前要少。用户有点意识到如何设置强密码的问题了。比如在文本后添加一两个数字就会让强度提高,是不是?

“我会添加一个数字让密码更安全。”

42万密码末尾中最常用的数字(0-99)

密码末尾最常用的数字(0-99)

密码末尾最不常用的数字(0-99)

在这1000万个密码中,几乎有50万密码(或42万密码,8.4%)以0-99的数字结尾。其中超过1/5的人选择了1。或许他们认为1最容易记 住。也可能是因为网站要求在已选词语之后添加一个数字做出的即时反应。其他最常见的数字是2、3、12(这里的“12”是1跟2的组合,而不是单独一个数 字)、7等等。有研究显示,当有人让你说出1到10中的一个数字时,多数人会说3跟7,而且人们似乎对质数的选择存在偏好。这可能行得通。但也有可能人们 是为了用这些个位数替代曾使用过且还想继续使用的密码,这样就不会“攻陷”在其他网站上的凭证了。

尽管存在争议,但你可以想想,一个密码破解高手可以轻易将一个数字或几千个数字添加到字典里或者蛮力破解方式中。所以,一个密码的强度就取决于它的熵。


 


 

上一篇: 解密千万密码:透过密码看人性(下)

下一篇: 一种强大的新型BIOS Bootkit病毒曝光