点击“我不是机器人”后，网站怎么知道你真的是人小红书不停弹出我不是机器人的广告怎么关闭

发表时间：2023-07-23 21:53:38

点击“我不是机器人”后，网站怎么知道你真的是人

原标题：点击“我不是机器人”后，网站怎么知道你真的是人？来源：地球人研究报告©

本文来自微信公众号：地球人研究报告（ID：diqiuren005），作者：你的外星小姨，题图来自：电影《铁甲无敌玛利亚》

大部分人可能都被Google要求做过这样奇怪的保证：

“我不是机器人”。

只要你经常使用一些国外的网站，它就会隔三差五地弹出这个对话框，要求你点击来“声明”自己不是机器人。

以前这种“证明自己是人”的环节里，有很多让人不胜其烦的验证码，要么是一串扭曲的字符，要么是一堆支离破碎的图片让你辨认。但在这种最新的验证下，大部分情况下，只要你点击确认之后，网页就会成功放行。

这显然是一种更方便快捷的验证形式。但它同时也让一些用户陷入了迷惑：“这究竟怎么判断我到底是不是机器人的？”

“难道是因为机器人不会撒谎？”事实当然并非如此。

简单的点击背后，其实暗藏着很多信息传递，甚至包含你的隐私的暴露……这个你已经可能见怪不怪的机器人测试背后，掩盖着的是十数年人机对抗的斗争史。

点击“我不是机器人”这一交互形式，本质上来说还是你在填验证码。

要解释这一点，我们就有必要回顾一下验证码的发展历程。

对于现在的用户而言，填写各类验证码已经必不可缺的技能之一。验证码只会耽误每位用户几秒钟的时间，但却能极大提升网络环境的“清净程度”。

如果没有它的存在，那你现在恐怕会遭受更多的垃圾邮件轰炸、信息骚扰。服务商也会面对脚本大军而感到崩溃……

就像20年前的互联网那样。2000年之前，验证码并不存在。那时的网络虽然并不发达，但已开始兴起，各类论坛和邮件服务商的涌现，拉开了网络交流时代的序幕，而与正向技术一同出现的，当然还有种种恶意脚本。

垃圾邮件、评论、恶意信息随着脚本的出现开始漫天飞舞。雅虎作为2000年最为出名的网络服务商之一，可谓是深受其害——他们是互联网早期最重要的免费邮箱提供商，但面对脚本和海量垃圾邮件束手无策。于是雅虎便联系到了卡内基梅隆大学的计算机科学系来寻求帮助。

雅虎的主要需求是想“有效分清真人用户和机器脚本”。卡内基梅隆大学一名21岁的学生路易斯·冯·安恩（LuisVonAhn）针对这个目标有了思路：要让注册的用户提供“证据”来证明自己是一个人类，例如做一些只有人类能做，而机器做不到的事情。

什么事情是在当时只有人类能做，而机器做不到的呢？答案是阅读图片。

人类可以很轻松读出图片中的信息，但当时的机器并没有这样的能力。如果通过程序来提供一些稍加扭曲的图片，然后让注册者回答图片中的内容，便能很轻易地将机器拒之门外。

听起来是不是很熟悉？这正是现在我们很常看到的验证码形式之一。

2000年左右，这名学生路易斯·冯·安恩发明了验证码这一概念，他将其命名为CAPTCHA。

CAPTCHA是CompletelyAutomatedPublicTuringtesttotellComputersandHumansApart的简写，意为“全自动区分计算机和人类的图灵测试”。

自此，一场持续数十年的、人与机器之间围绕着图灵测试的对抗开始了。

说起这种最早出现，也是最常见的验证码形式，恐怕大多数人，都对它有过一些不太美好的回忆。

最早出现的验证码，都是一些简单容易看懂的形式。人类可以很简单地分清上面的内容。

但随着机器识别图片能力的提高，验证码的难度也日益提升。

有时它的难度甚至大到网友怀疑自己的程度。

为了避免被机器识别，验证码需要对图上的文字加以扭曲等视觉干扰，本质上是为了避免被机器认出来。但有时扭曲的程度也难倒了人类。

“U”和“V”像是双胞胎兄弟，“O”和“0”很难分清，这基本上是每个网友都碰见过的麻烦。但这些都只是初级问题，当中文验证码出现之后，人们面前的困难也就更多了。

和英文、数字验证码不同的是，中文验证码更多是给人心理上的折磨。

2017年，成都大学的一名大四女生，在网上准备报名考研。输完用户和密码后，她的屏幕上弹出两个字的中文验证码：“别考”。

后官方表明“纯属巧合”关于这种初级形态的验证码，类似的问题无时无刻在困扰着网民们，而验证码对网络环境来说又是个不可或缺的存在。

每位网民都要在验证码上花费几秒时间，看似成本短暂，但叠加起来又是一个巨大的量级。

根据统计数据，全球网民每天需要输入近2亿次验证码，每次需要花费十秒。算起来，全人类每天会在验证码上花费50万个小时。

验证码最初的发明者路易斯·冯·安恩发现这个事实后，深感忧愁，毕竟时间就是金钱。而这50万小时的资源，就这样白白浪费掉了。

他现在是多邻国的创始人有什么能利用这些时间的方法吗？路易斯·冯·安恩又有了想法：既然验证码需要让人类辨认图上的文字，那能不能让人类“顺带”帮忙辨认一下一些难以识别的书籍？

这听起来似乎是天方夜谭，但路易斯·冯·安恩通过一个简单的小方法实现了。

他把验证码需要输入的单词改为两个，其中一个是已知答案的单词，另一个是摘自旧书或手稿中的单词。

已知答案的单词是单纯的验证码，如果用户成功输入，那就已经通过了测试。

于此同时，这也意味着这名用户不是瞎打的字。那么用户所辨认的另一个截取自古书籍的单词，也将被记录为有效答案。如果有3位用户对一个单词给出同样的答案，那么该字就将得到校验。

你看似是在输入验证码，其实是在帮助翻译古书籍上的内容。

这个新的验证码机制（reCaptcha）很快被各大网站推广使用，随后被谷歌收购。每天大约有4000万个单词就这样被辨认出来，这个新的验证码系统，靠着无穷无尽的免费人力资源，每年能读出数十万本书。

这是验证码大战的另一次升级：人类创造脚本来牟利，脚本让人类在验证码上浪费无数时间成本，而聪明的人类又把这份成本有效地重新利用了。

当然，这并不意味着这场斗争的停止。

看图识字型验证码，仅仅维持了一段时间的互联网和平。验证码农场的诞生，开始带来一些改变。

所谓验证码农场，就是一些专门来人工识别验证码的工作室。它的原理非常简单：“农场主”雇佣大量廉价人力资源，这些人坐在电脑前，无间断地输入从各地发来的需要辨认的验证码。

这种质朴的方式的确扰乱了大环境，但带来的改变并没有那么致命。

真正的变化，还是机器识别能力的日益提升。随着技术逐步升级，原本对于机器来说难以辨认的扭曲验证码，现在已经不再是一个天大的难题了。

在2014年，谷歌发布新的研究成果——一个专门用来解读扭曲验证码内容的算法。

最后测试的结果中，机器解读验证码成功率99.8%，而人类的成功率是33%。

在技术面前，人力再一次落败。但这当然不是验证码的陌路。

2014年，Google发布了新一代验证码技术，他们将其称为：“NoCAPTCHAreCAPTCHA”——“没有验证码的验证码”。

这个没有验证码的验证码十分简单，只需要你勾选一个按钮，来“证明”自己不是机器人。

这就是如今我们常常看见的“我不是机器人”。

“我不是机器人”看起来简单方便，只需用户轻轻一点。但背后的逻辑要比普通验证码复杂许多。

当你点击“我不是机器人”时，Google将会分析你的各种行为，包括点验证码前、点验证码时、点验证码后的动作，来判断你是不是人类。

它也会收集一些你的数据，比如指针移动速率，当前IP，是否使用插件，页面使用时间，进行过多少次点击……

如果你展现出来的行为，都符合一个人类的标准，那网页就会放行。

基本上可以这样说：这是用一小部分隐私换来的快捷。

而且有意思的是，这种测试对于真正的（物理）机器人来说反倒不太有效。

当然，有时Google也无法单纯从你的行为来确认你是否为人类，而这时就会出现图片测试，要求用户选择图片中出现的XX。

这种也是当下比较常见的一种验证码形式，同时也遭人吐槽最多。比如说，图片测试中要求辨认的物体，总是很刚好地超出选项框一点点，令人左右为难。

“选出图片中的汽车”往往是最难的一项。

选交通信号灯也常常让用户感到无从下手。

有时图片里根本不会有要求辨认的物体：

基本上每个网民，都曾被这种类型的验证码折磨过几回。也让“选出图片中的xx”顺利成为了一种梗图。

如果你有幸曾在12306上购买过车票，应该也能理解这种痛苦。自2015年开始，12306上线了新的图片验证码，自此让所有买票人叫苦连天。

据官方统计，能一次性输对12306验证码的人，只有8%。

脚本越来越厉害，验证码越变越复杂，这似乎是一个无解的循环……

由人们创造的，日益提升的机器算法，和同样出自于人类之手的脚本相互抗衡，最终诞生的时间成本，似乎还是要人类自己来承担。

最近这两年，Google又推出了新一代验证码reCaptchav3。

而reCaptchav3，其实也不用再被称之为“验证码”了，因为它并不需要用户提出任何证据来“证明”自己是个人类。

它会在网站后台自动记录使用者在网站中浏览的行为特征，随后根据这些记录来给用户打分，当用户的“非人”操作足够多之后，就会被判定为机器人。

这项技术如今并没有被大面积使用。但对验证码的发展来说，似乎是个较好的方向。但它必然也是有代价的，比如隐私……

截至目前来看，这场人与机器之间，围绕着图灵测试的对抗，仍未有个明确的局势。

或许在技术更加发达的未来，如何证明自己是个人类，对于人类而言将变成更难的问题。

本文来自微信公众号：地球人研究报告（ID：diqiuren005），作者：你的外星小姨

海量资讯、精准解读，尽在新浪财经APP

“我不是机器人”：验证码的历史与未来

基本上上过网的人，都知道验证码是个什么东西。这些歪歪扭扭的字母、数字和汉字每天都在各种网站上不断的刷新，挑战着网友们的眼力。这玩意的历史，其实比你想象的要短的多，但其诞生的短短十几年时间里，已经经过了各种曲折而意想不到的发展。而今，借助现代IT技术的东风，验证码也踏上了一条全新的道路。

早期的尝试

验证码的英文叫“CAPTCHA”，这是一个炫酷词组的缩写——“CompletelyAutomatedPublicTuringtesttotellComputersandHumansApart”，直译就是“用于区分计算机与人类的全自动公开图灵测试”。图灵测试大家都比较熟悉，是由图灵提出的一个著名试验，实验者通过询问一台机器与一个人类一系列问题，如果实验者无法分辨两者的区别，那么这台机器便通过的图灵测试。

图灵测试

验证码是图灵测试的反向简化版本，不是由人来判断对方是不是机器，而是由机器来判读对方是不是人。在互联网的早年间，各个网站都是没有验证码的，最多有一些黑客出于躲避敏感词检测的目的，故意把单词用很怪的方式打出来。就像把XXX打成“氵工氵尺民”这样。到了21世纪初，随着垃圾邮件和欺诈软件的盛行，开始有公司利用验证码的思想来保护自己的网站。比如2001年PayPal就曾让人类输入类似验证码的扭曲字母。

验证码这个名词真正被发明出来是在2003年，这比很多概念晚多了，比如神经网络70年代就已经有很多人在研究。卡内基梅隆大学的LuisvonAhn，ManuelBlum,NicholasJ.Hopper等人首次提出了“CAPTCHA”这个词。他们对验证码系统做的很深刻的研究，并且将其付诸程序化。自此大量的验证码开始被应用到网站中，有效的阻止了黄牛软件的肆虐。时至今日，每天有过亿的验证码被人们不断地输入着。

LuisvonAhnLuis的的论文Luis的脚步

Luis在2003年发明了验证码，两年之后他完成了自己的博士论文，在其中他提出了结合人类与计算机的能力共同解决问题的概念。他认为，计算机强于大量数据的计算，而人类在感知图像等方面的优势是计算机仍难以胜任的，每天有如此之多的验证码被人输入，不用来做点什么实在是太可惜了！

Luis那时候喊出的口号是：“stopspam,readbooks.”他做到了。2007年，他创立了reCAPTCHA工作室，提供了一种新型的验证码服务，成为“视觉单词识别系统”（opticalcharacterrecognition,简称OCP）。他们把纸质书籍扫描下来，再用软件切分成一个个的单词，做成验证码和真的验证码捆绑在一起，由用户输入。当同一副图片被多人标记为同样的单词时，软件就会将其记录下来，并和其他的单词拼凑成一本完整的电子书。如果你见过那种红色的验证码标志，并且码文由两段内容组成，大概很容易知道我说的是什么。

stopspam,readbooks.

这个点子实在很赞。这样一来数以万计的验证码就成功的被用来转换那些实体书籍，而不用耗费昂贵的人工来打字。Google也发现了这个系统的绝妙之处，于是他们决定——收购他们。2009年，reCAPTCHA成为了谷歌旗下的一员，利用这个系统，Google电子化了大量的图书，并把它们发布在了Googlebooks上。到了2012年，除了图书，reCAPTCHA还为谷歌街景翻译了大量门牌号。可谓功勋卓著。下次遇到这种验证码的时候，你就知道自己在做一件多么酷的事儿。

各方面的挑战

验证码很常见，但是几乎每个人都烦他，毕竟是多了一道很麻烦的工序。实际上随着信息技术的发展，验证码收到的挑战也越来越多。

在早年间，破解验证码的方式非常简单暴力，那就是靠人来解。有人专门在第三世界国家开办血汗工厂式的公司，接收大量的验证码然后由人力输入破解之，这种公司被称为“验证码农场”。2010年，利用验证码农场来破解一百万个验证码，只需要1000美元。这种方法理论上是无解的，毕竟对面是真的人，当然成本也是最高的。

另一方面，机器学习，图像处理等技术近年来蓬勃发展了起来。计算机检测图片当中字母数字的能力越来越高了。为了应对这种威胁，验证码开始朝着猎奇的方向发展，扭曲文字，增加干扰线，把背景色与文字颜色相混等等，连浓眉大眼的reCAPTCHA也加了好几条线上去。这起到了一定的效果，但是对使用者的干扰更大。输入不成功的概率越来越大，大家纷纷想砸电脑。

更可怕的是，2014年的WOOT大会上，Bursztein展示一种通用的验证码破解程序，这种基于强化学习的算法对市面上大对数验证码效果都不错。这证明靠扭曲文字的方式增加难度以及再也没用了，受伤的只能是用户。

你看这是啥？

但用户们已经很抓狂了。更不必说有视觉障碍、认知障碍等等疾病的残障人士，他们输入一次验证码比登天还难。人们并不想要更复杂的验证码，而是想要简化它。于是各种各样的方案被开发出来，希望在简化手段的同时拦住电脑。包括滑动式验证码、点击式验证码等等。至于效果嘛……别的不说，12306绝对是大大的反例了……

未来：“我不是机器人”

还记得刚刚说的reCAPTCHA吗，这次，他们换logo了！

不，这不是重点，重点是，他们彻底革了验证码的命。reCAPTCHA开发出了一种全新形式的验证码装置。你只需要点击一下那个方框，就完成了验证工作。十分简单，毫不繁琐。连网站页面都变得清爽了起来。而其拦截成功率比传统的文字验证码高上好几倍！

那么这种新reCAPTCHA是怎么工作的呢？简单来说，当你进入了这个页面的时候，软件就开始收集你的各种信息，包括你的IP、cookies、时间、分辨率、鼠标的移动、键盘的操作和其他各种杂七杂八的数据，当你点击完成时，这些信息被服务器处理并最终判断你是不是一个真人。所以新reCAPTCHA所收集的信息比传统文字验证码更多，也更难破解。

只需要戳一下哟

通常，这样一个感知模型需要庞大的数据量支撑才能训练成功，幸好reCAPTCHA有一个强大的后台——Google公司。Google极力的促进的这项服务的开展，他们一点都不缺少用户数据。而今，你已经可以在国外的各大网站上见到它的身影，包括youtube、facebook等等。

“Toughonbots，Easyonhumans”，这是reCAPTCHA的口号，诚如所言。这项服务完全是免费的，只需要在他们的网站上注册一下，就可以获得接口使用。如果你想要，完全可以搞一个在自己的网站上玩。比用各种丑丑的验证码有趣多啦！

结语

验证码诞生至今不过15年左右，其身上已经烙上了信息时代技术大发展的烙印。Google致力开发的新型验证码让我们看到了一个更为方便快捷的未来，更重要的是，技术发展的目标应当是让人更加方便的生活，而非增添烦恼。相比之下，12306是不是应当羞愧一下下呢？

点击“我不是机器人”后，网站怎么知道你真的是人 小红书不停弹出我不是机器人的广告怎么关闭