为了防止语音窃听 哥大科学家开始用一个AI欺骗另一个AI
2022-06-02 22:38:04 沫小朵

  原标题:为了防止语音窃听 哥大科学家开始用一个AI欺骗另一个AI

  日益完善的自动语音识别技术让手机软件监听变得非常方便。刚和人说完话就看到了推送资讯,你是否也曾怀疑自己被软件偷偷监听?

  现在,已经训练出了一种和说话声音同步的噪声,欺骗现有的语音识别系统的成功率达到了80%。研究在深度学习领域顶会ICLR上。

  一个AI欺骗另一个AI

  这项新技术被称为“神经语音伪装”(Neural Voice Camouflage)。它的核心策略是“对抗性攻击”(adversarial attack),用简单的话说,“用一个AI欺骗另一个AI”。

  对抗性攻击是指在识别的关键点上添加一种有针对性的“噪声”,从而让AI做出误判。这里的“噪声”是指数据的误差。AI能自动识别图像、音频等信息,靠的是通过输入大量数据集对神经网络进行训练。数据中有一些关键点对决策特别重要,在这些点上,即使是少量的“噪声”也能导致完全不同的识别结果。在2018年,研究人员就成功用对抗性攻击让AI把一张海龟的照片识别成了步枪,而添加的“噪声”依然不影响人类清晰识别。

  利用不易察觉的颜色“噪声”,对抗性攻击欺骗了图像识别算法,使其把照片里的海龟识别成了步枪。图自Science News

  语音识别和图像识别在这一点上是几乎相同的。研究人员用机器分析语音中的特征,然后针对性地给识别增加干扰。因此,它把生成的噪声叠加上之后,可以做到在人类完全能听清楚的情况下,让自动识别机器几乎只能识别出乱码。

  在原音频上叠加噪声干扰机器识别。图自ICLR会议报告

  研究人员表示,一般来说最难干扰的是短词,比如“the”,但这也是一句话中暴露信息最少的部分。

  AI经训练能“预知未来”

  对于完整的音频,施加这样的干扰非常容易。但研究人员遇到的最大挑战是“同步性”,在学术语言中被称为“实时性约束”。监听软件已经可以做到在人说话时同步识别,而如果等到把音节特征分析出来以后再播放计算出来的噪声,原音节就已经改变了。据研究,音频的采样率至少为16kHz(每秒采样1.6万次),这意味着必须在几毫秒内通过扬声器播放出生成的噪声,这目前是不可行的。

  研究显示,加上白噪音的语音识别错误率在12.8%。如果加上没有预知能力、延时在0.5秒左右的伪装噪声,语音识别错误率为20.5%,干扰性没有得到显著提高。“语音伪装”必须也能在说话中施加即时的干扰,让延时尽量为零,才能具有防监听的实用性。

  为此,研究人员用大量数据进行训练,让这项技术有能力“预知未来”,这被称为“预知性攻击”(predictive attack)。通过输入许多小时的录音进行训练,机器可以根据前两秒的音频猜测接下来可能出现的短语,然后有针对性地去伪装这些概率较高的结果。

  例如,音频中的人说“我昨天去餐厅……”。机器虽然不能完美预知他接下来要说的话,但却能从语意连贯性和说话者的语音特征中做一部分猜测,然后产生可能可以干扰到这些猜测的噪声。如果他继续说“吃了一顿大餐”,很可能就能被猜中从而得到有效干扰。

  结果非常有效:除了前两秒的输入,这项技术能在之后的所有位置添加即时的噪声,把自动语音识别的错误率从11.3%升高到了80.2%。根据论文摘要,研究人员分别用词汇和字母两种方法计算错误率,发现词汇错误率比基准数据集高出3.9倍,字母错误率则高出6.6倍,充分说明了即时噪声干扰的有效性。

  研究人员甚至为“对手”语音识别系统作了强化,也使用神经网络进行训练,这是监听者可能会采用的针对性手段。即便如此,经强化的语音识别的错误率仍然达到52.5%。

  在机器学习中,这部分“预知未来”的技术在其他需要实时处理的应用中也有很大的潜力,自动驾驶汽车必须预测汽车和行人下一刻可能出现在哪里,人类的大脑也通过预期来运作。

  领导这项研究的哥伦比亚大学计算机科学家Mia Chiquier表示,这只是在人工智能面前保护隐私的第一步。“人工智能收集我们的声音、面部和行动的数据。我们需要新一代的技术来尊重我们的隐私。”

投稿:lukejiwang@163.com
点击展开全文
Copyright © 2002-2024 鹿科技