为了防止语音窃听哥大科学家开始用一个AI欺骗另一个AI-为了|防止|语音|AI-鹿科技

　　原标题：为了防止语音窃听哥大科学家开始用一个AI欺骗另一个AI

　　日益完善的自动语音识别技术让手机软件监听变得非常方便。刚和人说完话就看到了推送资讯，你是否也曾怀疑自己被软件偷偷监听？

　　现在，已经训练出了一种和说话声音同步的噪声，欺骗现有的语音识别系统的成功率达到了80%。研究在深度学习领域顶会ICLR上。

　　一个AI欺骗另一个AI

　　这项新技术被称为“神经语音伪装”（Neural Voice Camouflage）。它的核心策略是“对抗性攻击”（adversarial attack），用简单的话说，“用一个AI欺骗另一个AI”。

　　对抗性攻击是指在识别的关键点上添加一种有针对性的“噪声”，从而让AI做出误判。这里的“噪声”是指数据的误差。AI能自动识别图像、音频等信息，靠的是通过输入大量数据集对神经网络进行训练。数据中有一些关键点对决策特别重要，在这些点上，即使是少量的“噪声”也能导致完全不同的识别结果。在2018年，研究人员就成功用对抗性攻击让AI把一张海龟的照片识别成了步枪，而添加的“噪声”依然不影响人类清晰识别。

　　利用不易察觉的颜色“噪声”，对抗性攻击欺骗了图像识别算法，使其把照片里的海龟识别成了步枪。图自Science News

　　语音识别和图像识别在这一点上是几乎相同的。研究人员用机器分析语音中的特征，然后针对性地给识别增加干扰。因此，它把生成的噪声叠加上之后，可以做到在人类完全能听清楚的情况下，让自动识别机器几乎只能识别出乱码。

　　在原音频上叠加噪声干扰机器识别。图自ICLR会议报告

　　研究人员表示，一般来说最难干扰的是短词，比如“the”，但这也是一句话中暴露信息最少的部分。

　　AI经训练能“预知未来”

　　对于完整的音频，施加这样的干扰非常容易。但研究人员遇到的最大挑战是“同步性”，在学术语言中被称为“实时性约束”。监听软件已经可以做到在人说话时同步识别，而如果等到把音节特征分析出来以后再播放计算出来的噪声，原音节就已经改变了。据研究，音频的采样率至少为16kHz（每秒采样1.6万次），这意味着必须在几毫秒内通过扬声器播放出生成的噪声，这目前是不可行的。

　　研究显示，加上白噪音的语音识别错误率在12.8%。如果加上没有预知能力、延时在0.5秒左右的伪装噪声，语音识别错误率为20.5%，干扰性没有得到显著提高。“语音伪装”必须也能在说话中施加即时的干扰，让延时尽量为零，才能具有防监听的实用性。

　　为此，研究人员用大量数据进行训练，让这项技术有能力“预知未来”，这被称为“预知性攻击”（predictive attack）。通过输入许多小时的录音进行训练，机器可以根据前两秒的音频猜测接下来可能出现的短语，然后有针对性地去伪装这些概率较高的结果。

　　例如，音频中的人说“我昨天去餐厅……”。机器虽然不能完美预知他接下来要说的话，但却能从语意连贯性和说话者的语音特征中做一部分猜测，然后产生可能可以干扰到这些猜测的噪声。如果他继续说“吃了一顿大餐”，很可能就能被猜中从而得到有效干扰。

　　结果非常有效：除了前两秒的输入，这项技术能在之后的所有位置添加即时的噪声，把自动语音识别的错误率从11.3%升高到了80.2%。根据论文摘要，研究人员分别用词汇和字母两种方法计算错误率，发现词汇错误率比基准数据集高出3.9倍，字母错误率则高出6.6倍，充分说明了即时噪声干扰的有效性。

　　研究人员甚至为“对手”语音识别系统作了强化，也使用神经网络进行训练，这是监听者可能会采用的针对性手段。即便如此，经强化的语音识别的错误率仍然达到52.5%。

　　在机器学习中，这部分“预知未来”的技术在其他需要实时处理的应用中也有很大的潜力，自动驾驶汽车必须预测汽车和行人下一刻可能出现在哪里，人类的大脑也通过预期来运作。

　　领导这项研究的哥伦比亚大学计算机科学家Mia Chiquier表示，这只是在人工智能面前保护隐私的第一步。“人工智能收集我们的声音、面部和行动的数据。我们需要新一代的技术来尊重我们的隐私。”

你遇到过鬼打墙吗，科学家给出了合理解释！

哪怕是科学家们也无法解释的9个神秘事物！

人类在月球睡一天，相当于地球多长时间呢？