你的脸和声音出卖了你

晓木虫 · 发表于 2015-2-4 18:50

说到利用人体的生物特征进行身份识别的问题，大家肯定首先会想到指纹识别。每个人的指纹是不同的，即使同一个人的十指之间，指纹也有明显区别，因此指纹用于身份鉴定是非常可靠的。虽然指纹特征并非肉眼可轻易分辨的，但作为身份识别的工具至少也用了上千年了。影像记录和声音记录是现代技术的产物，如果说这些记录也可以作为生物特征进行身份识别，你可能有些小小的惊讶。

在不是太久的之前，我们都认为匿名是安全的。如果一个人的照片出现在抗议游行的队伍中，同性恋酒吧里或堕胎诊所中，可能只有朋友会认出来，电脑是无能为力的，除非这台电脑一直在负责搜寻某个人，并针对这个人训练了人脸照片，而且还必须保证用于识别的照片质量足够高。在游行队伍中，某人大声发表了时间并不算太长的演讲，事后如果只有录音，也不大可能找出这个人是谁。

但目前，这些技术的发展突飞猛进，人脸识别的准确性越来越高，据Facebook的DeepFace研究团队在机器视觉社区进行的测试发现，人类识别的正确率约为98%，而DeepFace团队的机器为97.35%，高于其他领域 27%的准确性。这个测试的基准是辨认来自LFW中的两张照片是否为同一个名人。“我的声音就是我的密码。”也许很快大家在给银行或信用卡公司打电话的时候就会这么说。指纹或虹膜扫描，每个人的声音都是独一无二的。安全公司也已经将语音识别作为一个方便的新层进行身份验证。

DeepFace的人脸识别效果如此之高，好在他们的目的不是为了侵犯别人的隐私，而是为了保护隐私。一旦DeepFace从每天上载的4亿张新照片识别出某人，就会警告用户是否要将这张照片进行模糊化处理，以保障用户的隐私。

简单的面部侦测对电脑来说很容易，至少可以与识别常见的花朵、座椅板凳和灯具等物件相媲美。几乎所有的人脸都有类似的特征：耳朵、鼻子和嘴而且都处在相对固定的位置。这种一致性为电脑的有效识别提供了一个捷径，因此20年前就已经做到了，一些廉价的相机中都可以采用这种技术来侦测和聚焦面部。但是，识别人脸则比简单的面部侦测要困难得多，特别是要将人脸作为惟一性标识，那就更是困难重重。与人的指纹不同，人脸总是在不断变化的。只是微笑一下，人脸就发生了改变。眼角纹、鼻子的反光点、露出的牙齿，统统都在改变。仰天大笑，脸上显现的形状很快发生变化。即使有同样的表情，人的头发也在不断发生变化，刚理发后的变化更是非常大。然而，人眼却能毫不费力地从一堆照片中认出他认识的人，即使这个人他们只见过一面。根据我们所感知的周围世界，人脸识别可能是人类大脑最擅长之处，而电脑则要与研究者们所称的A-PIE（衰老、姿势、照明、表情）进行顽强的斗争，来自这些因素的噪声淹没了人与人之间细微差别。

在深度学习方法的帮助下，电脑取得了进展。正如所有的机器学习工艺，深度学习也是从训练数据开始的，通过大规模含标签数据集的学习，理想情况下包括每个人的多张照片。在该领域，素颜检测数据库（Labeled Faces in the Wild，LFW）可用于研究非限定脸部识别问题，包含13000多幅从网络上搜集的脸部图像，其中有5749位名人的面孔。这个数据库是在线免费使用的，因此成为人脸识别算法领域最广泛的测试基准。对电脑来说，人脸也就是明暗不同的像素集合。深度学习系统的训练首先让系统自行对比脸部特征并发现其自身的特征，比如眼睛和鼻子，还包括一些无法直观感受的统计学特性，也就是让机器和数据说话。系统首先要将面部像素的集群识别为元素，即定义轮廓的边界。后续处理层将元素组合成非直观的统计特性，就是那些看起来很普通，但足于区分不同的面孔的特征。这就是深度学习的“深度”：每个处理层的输入是下面层的输出。训练的最终结果是一个人脸的具象模型：比较面孔的图像并猜测他们是否属于同一个人的统计机器。系统训练的面孔越多，这种猜测越准确。

所谓声纹（Voiceprint），是指用电声学仪器显示的携带言语信息的声波频谱，一般通过采集一段演讲录音并分析声音集中区域的频率而完成的。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官（舌、牙齿、喉头、肺、鼻腔）在尺寸和形态方面差异很大，所以每个人的声纹图谱都有独特的，既有相对稳定性，也有一些变异。这种变异可来自生理、病理、心理、模拟、伪装，也与环境干扰有关。尽管如此，由于每个人的发音器官都不尽相同，因此在一般情况下，人们仍能区别不同的人的声音或判断是否是同一人的声音。

与指纹不同，声纹需要结合一些行为元素来鉴别。说话的节奏、方言和口音这些特征是很容易区分的。一般的语音识别系统，主要是为了理解说话的内容，因此会尽量减少一些差异，比如降低过高的音量，忽略停顿和口音等。但如果是为了鉴定某个人，这些差异却是非常重要的。一些声纹系统应用设备中，通常要求用户重复一个标准的短语，而盗贼们恰好可利用这点，事先录下一些短语而糊弄过关。为了挡住这个漏洞，系统就被设计成一种可检测录音或合成语音。在这方面，一个更简单、安全、有效的方法是让客户重复读出一个随机选择的文本，盗贼很难准备出所有可能的录音。还有些系统根本就不需要用户说什么短语，而是分析一个人的声音，提取相关特征，与存储的声纹进行比较。

要精确说出自动人脸识别将如何使用，以及有什么样的法律限制，这目前还说不清楚。据目前的资料说明，美国FBI的识别准确率低于Facebook。导致识别准确性的差距主要来自数据库，FBI所采集的脸部信息图片质量参差不齐。脸部识别系统采集的最佳照片是正面照，以脸部为中心点 15 度角拍摄。如果不是被拍摄者自愿拍照，一般很难获得这样的照片。FBI的道路拍摄难以获得最有效的脸部信息，镜头处于路人之上，角度和画质都难以达到识别要求。而Facebook 中的图片大多是拍摄者主动提供的照片。除此之外，DeepFace的优势来自更聪明的编程能力。他们通过建立人脸的三维形状结构克服了识别中A-PIE的部分问题。如果是一张侧面照，程序根据它所看到的人脸重建一幅正面容貌。这个“对齐”步骤使DeepFace更加高效，这样就可以将更多的精力集中在在细微差别上。这个过程占用单核电脑几分之一秒的时间，这足于让DeepFace用于智能手机了。经过学习之后，每张人脸都可以用一个256位的哈希（hash）字符串代码来表示，这种压缩能力太强大了！10亿人的面部数据库就可以储存在一个拇指大小的驱动器上。但是，DeepFace最大的优势其实是它的训练数据。DeepFace在发表的文章中却轻描淡写地称之为社会面部分类库（SFC），这是一个有440万有标注的人脸数据库。尽管用户在注册时允许Facebook使用他们的个人资料，DeepFace并没有说明是否征得照片主人的同意。

同样，声纹提供了便利和安全，也可能带来隐私问题，因为它可以让企业和政府有可能来识别一些并不认识的人，这对匿名言论保护来说是一个挑战，而这恰好是美国宪法第一修正案中的内容。商业公司为了最求最大利润，有追踪消费者移动轨迹和习惯的需求。如果顾客拿起电话或接近收银员时就被识别出来，这将打开一个市场机遇，让消费倍感便利。与许多新的认证技术相比，便利性和隐私之间就是一对矛盾。有人担心，声纹可以不经他们同意来鉴定说话者，是否侵犯他们的隐私和言论自由。这些技术一旦成熟，它必将产生许多隐私问题，这是非常容易理解的。如何获得声纹以及何时获得声纹是合法这个问题是非常模糊的。许多国家已立法来规范窃听，但声音识别则增加了一个重要的新维度，大多数立法都还未来得及考虑。

私人数据的买卖已经是一个繁华的市场了，有合法的，也有非法的，人脸识别将成为另一个热门商品。例如，人脸身份证可让广告商通过摄像头捕捉到某个人后来迎合他们的偏好，甚至根据他们所知道的这个人的购物习惯和人口统计学数据而提供不同的价格。但麻烦的是，陌生人也可能从繁华的街道人群中找到你，现实生活中已经无法逃避人脸识别了。美国的FacialNetwork公司利用自己的深度学习系统开发了一个应用程序称为NameTag（名牌），可用于智能手机或类似谷歌眼镜这样的可穿戴设备中。NameTag不仅能显示一个人的名字，还可以显示从社交媒体、交友网站和犯罪数据库中挖掘的内容。这样的内容显然令人反感的，Facebook叫停了FacialNetwork，并阻止它收集用户信息。Learned-Miller认为更好的人脸识别其可能的商业应用是个麻烦，但他更担心政府可能滥用这项技术。他说，“我是100% 支持斯诺登的，我们必须提高警惕”。

如果 FBI 取得 Facebook 数据库中的照片，那么辨识率可就不可同日而语了，FBI 离取得 Facebook 的图片数据库到底有多远呢？Facebook 正在面临用户隐私的官司，一旦在这场官司中败诉，政府部门只需要一纸法院执行令就可以获取更多有价值的用户数据了。看来众人的网络隐私权又面临重大挑战了。一篇表示这种担心的文章写道：“很显然，警察和其他执法部门将使用这种技术搜索我们的照片，而我们却一无所知”。Facebook也承认如果法官有这样的请求，他们将提供让其访问这些数据的权利。人们知道了这样的情形非常害怕，但马萨诸塞大学安姆斯特分校的计算机科学家Learned-Miller教授认为这些担心是多余的，他说，“如果像Facebook这样的公司真的踩越社会可接受规则的界限……他们可能会倒闭。如果他们违反了法律，那么公司就可能关张，也有人会因此而被逮捕。”怀疑源于缺乏透明度。而学术研究者在使用这些私人数据进行研究时必须征得别人明确的同意，也就是在注册网站时他们在最终用户许可协议（EULA）上点“同意”授予该公司使用他们数据及一些附加条件。这种在线合同其实并不是是透明的，没有多少人真正去认真看了这个合同。

参考资料：
[1] Facebook 脸部识别系统比 FBI 更强？
[2] Unmasked. Science 30 January 2015: Vol. 347 no. 6221 pp. 492-494.
[3] When your voice betrays you. Science 30 January 2015: Vol. 347 no. 6221 p. 494.

来源：科学网作者：赵斌

你的脸和声音出卖了你

晓木虫 · 发表于 2015-2-4 18:50

你的脸和声音出卖了你

香吉士的青橙 · 发表于 2016-9-29 01:31

论坛有你更精彩！

Edison_yu · 发表于 2016-9-29 06:24

以后多分享一些这样的有价值的帖子啊

jinking · 发表于 2016-9-29 09:58

好东西一定要看看！

落雨星痕 · 发表于 2016-9-29 10:05

论坛有你更精彩！

gxrshoulderknee · 发表于 2016-9-29 10:10

论坛有你更精彩！

嘟嘟嘟 · 发表于 2016-9-29 14:20

论坛有你更精彩！

晓木虫 · 发表于 2016-9-29 20:05

大家都不容易！

虚心学习 · 发表于 2016-9-29 20:47

以后多分享一些这样的有价值的帖子啊

971731043aaa · 发表于 2016-9-30 09:36

以后多分享一些这样的有价值的帖子啊

20068851 · 发表于 2016-9-30 10:55

好东西一定要看看！

昆虫记 · 发表于 2016-9-30 14:00

论坛有你更精彩！

ranrich2f_4 · 发表于 2016-9-30 14:24

大家都不容易！

wcgene · 发表于 2016-9-30 14:31

谢谢您的分享！

账号		自动登录	找回密码
密码			注册新账号

你的脸和声音出卖了你

晓木虫

你的脸和声音出卖了你