星期六 2024年 11月 30日
主页 副刊 科技

听 6 秒钟语音 AI 就知道你长什么样

- Advertisement -
12399456https://www.upal.com.my/zh/feeds/jobFeedKwongwahArray ( [0] => HTTP/1.1 500 Internal Server Error [1] => Date: Sat, 30 Nov 2024 02:56:44 GMT [2] => Content-Type: text/html; charset=UTF-8 [3] => Connection: close [4] => X-Powered-By: PHP/7.4.33 [5] => Cache-Control: no-cache, private [6] => X-Frame-Options: SAMEORIGIN [7] => X-XSS-Protection: 1; mode=block [8] => X-Content-Type-Options: nosniff [9] => Referrer-Policy: no-referrer-when-downgrade [10] => CF-Cache-Status: DYNAMIC [11] => Report-To: {"endpoints":[{"url":"https:\/\/a.nel.cloudflare.com\/report\/v4?s=T%2FRyZw2zJZDWiZmD27OwHbV2o8HlmKhXrD%2BnJ08SZWTrnCu0CcGPjjKPX4N4q8MUB8MKC797keC8iwwxdDcPp7wn57RMP2HTfFtYrS66gDlO7FgZDYvLgkcV%2F43xNQ23kuk%3D"}],"group":"cf-nel","max_age":604800} [12] => NEL: {"success_fraction":0,"report_to":"cf-nel","max_age":604800} [13] => Server: cloudflare [14] => CF-RAY: 8ea790e45db30fc9-LAX [15] => alt-svc: h3=":443"; ma=86400 [16] => server-timing: cfL4;desc="?proto=TCP&rtt=190529&min_rtt=190508&rtt_var=53621&sent=5&recv=6&lost=0&retrans=0&sent_bytes=2999&recv_bytes=756&delivery_rate=15198&cwnd=33&unsent_bytes=0&cid=d857a66c745bfca2&ts=633&x=0" ) 789

声音可以暴露很多信息,比如说,广东人跟东北人讲的中文永远都不是一个味儿。而麻省理工学院(MIT)最近一项研究发现,经过训练的 AI 不仅能从声音里辨别出你的性别、年龄和种族,甚至能猜出你大概长什么样。这些“秘密”都藏不住了。

Speech2Face 的一些错误示例。

研究人员用一个由数百万YouTube视频剪辑组成的数据集,对一个名为 Speech2Face 的神经网络模型进行自我训练,从最终结果来看,6秒语音对人脸进行还原的效果还算不错。

Speech2Face 模型的运作大概分为两部分,一个是语音编码器,负责对输入的语音进行分析,预测出相关的面部特征;另一个则是面部解码器,对输入的面部特征进行整合产生图像。

MIT 研究团队指出,他们的目的不是为了准确地还原说话者的模样,Speech2Face 模型主要是为了研究语音跟相貌之间的相关性。

- Advertisement -
一共 6 组结果示例,左边是视频里的人像,右边是 AI 根据声音还原的效果。

从训练结果看,Speech2Face能较好地识别出性别,对白种人和亚洲人也能较好地分辨出来,另外对30-40岁和70 岁的年龄段声音命中率稍微高一些。

除了比较基础的性别、年龄和种族,Speech2Face甚至能猜中一些面部特征,比如说鼻子的结构、嘴唇的厚度和形状、咬合情况,以及大概的面部骨架。基本上输入的语音时间越长,AI 的准确度会越高。

Speech2Face 似乎倾向将 30 岁以下的说话者年龄猜大,将 40-70 岁的说话者年龄猜小。

当然 AI 的“听觉”也会出错。研究人员发现,它会将未经历变声期的小男孩识别为女性,对一些说话者的口音判断错误,也会搞混年纪……这一点完全可以理解,毕竟声音还是会骗人的。

研究人员指出,Speech2Face 的局限性,部分原因来自数据集里的说话者本身种族多样性不够丰富,这也导致了它辨认黑种人声音的能力比较弱。

至于他们对这个 AI 模型的应用,则有一个很可爱的想象:只需要说几句话,未来 Animoji 和 Gboard 等功能或许就能根据声音生成你的卡通头像。不管你信或不信,藏在我们声音的秘密都正被开发研究,投入各式各样的场景应用。

卡内基梅隆大学计算机副教授 Rita Singh 也主导过一项类似的研究,能从声音猜测说话者的年龄、身高、体重、环境噪音和说话时的空间类型等信息。她认为声音里藏着丰富而独特的信息,“就像是你的 DNA 或指纹”。

这项技术后来升级成跟 Speech2Face 相似的语音分析系统,还原人脸的准确度达到 60%-70%,目前正被美国海岸警卫队用于缩小调查范围找到恶作剧报警者。据称,他们每年会接到约 150 个恶作剧电话,这些行为被视作浪费警力,甚至会遭到刑事起诉。

目前,汇丰(HSBC)、渣打(Standard Chartered)、摩根大通(JPMorgan Chase)等银行都在用“声纹”作为身份识别的一种方式(voice ID),可以检测你的账户是否被盗。

大都会人寿保险公司的客服中心,会用一套 AI 系统帮忙识别客户的情绪和感受,平均准确率达到 82%;一些保险公司甚至会借此判断来电者有没有骗保的意图——如果说话时出现微小停顿,很可能就是在提供虚假信息。

除此之外,经过训练的 AI 还被一些公司用于招聘,从应聘者的说话模式分析出性格特征,判断是否适合在招岗位。

而丰田(Toyota)汽车曾经在 2017 年 CES 大会展出 Concept-i 概念车型,车内配备红外摄像头、传感器、车载语音识别和对话系统,它们将协作判断司机是不是处于疲劳驾驶状态并作出提醒。

- Advertisement -

跟 MIT 的卡通头像相比,Singh 教授的想法似乎要更长远且宏大一些。她希望,有朝一日语音识别技术可以用于远程确诊帕金森等疾病。

而目前已经有研究发现,冠状动脉疾病患者在声音上会留有不同的频率标志。未来,“听声看病”说不定也会跟“听声识脸”一样成真。

找工作, 就找这里!

//
//
- Advertisement -
//
//