原标题:人类与AI协作,还不如各自安好?该如何有效整合人类与AI的力量?
一般来说,我们倾向于认为,虽然 AI 越来越强大,但只有人类与 AI 进行协作,将人类的创造力、直觉和情境理解与人工智能的速度、可扩展性和分析能力等优势相结合,才能充分发挥 AI 的作用,提升人类的能力。
在此前的文章中,我们也提到,AI 并不能取代人类,相反更多的是人类思维的扩展。
然而,一系列研究表明,由于沟通障碍、信任问题、道德问题等相关因素,与人类或单独的 AI 系统相比,人类与人工智能的协作不一定能取得更好的结果。
例如,有研究就发现,在行为风险评估方面,人类与风险预测系统的协作就不一定表现更好。
一方面,当算法和人类做出相似的决策时,二者的合作并不能互补提高预测的准确性。另一方面,当算法失败时,人类也可能无法弥补他们的错误。
图丨相关论文(来源:Communications of the ACM)
这一系列矛盾让我们产生疑问,人类和人工智能究竟是否互补?二者的协作能起到多大的效果?
近期,来自麻省理工学院的一支研究团队就对这些问题进行了综合研究,对人类-AI 系统的协同作用进行了量化,并对其在不同环境中不同表现的原因进行了解释。
图丨相关论文(来源:arXiv)
研究将人类-AI的协作模式分为两类:强协同与弱协同。强协同情况下,人类-AI协作的表现超越单独的人类及AI;而弱协同则指该组合优于其中之一,但未能同时超过两者的最佳表现。
尽管在受法律、伦理、安全等因素所限而无法全部实现自动化的场景中,弱协同模式也具有重要意义。
但许多人对人类-AI协作系统的期待,是认为它应该超越二者各自的单一能力,即追求强协同效益,毕竟,“团结力量大”嘛。所以,强协同模式也越来越受到关注。
团队回顾了2020年至2023年间106个实验的370个不同系统中纯人类、纯AI及人类-AI协作系统的表现。
结果显示,在强协同模式下,即以单独人类或AI的最佳表现为基准,人类-AI协作系统的表现要比基线标准差得多,总体汇总效应为负(g=−0.23,属于较小效应)。
而将人类-AI协作的成绩与纯人类表现单独对比时,人类-AI协作明显超越了纯人类操作的水平,此处汇总效应值为正(g=0.64,属于中到大等效应)。
也就是说,多数人类-AI协作相较于单个人类有所提升,但不能全面超越单独最佳的人类或AI表现。
图丨团队所分析相关研究的所有效应大小的森林图,负效应大小值为红色,正效应大小值为绿色(来源:arXiv)
所以,人类与AI的协作在平均水平上并未展现出我们预期中的强大协同优势。不过,相较于人类单独工作,确实还是提升了我们的效能。
课题组认为,其原因可能有两个方面,一方面一些人可能过度依赖AI,不加反思地信任AI,而忽略了深入探究的必要性;另一方面,也可能出于对自动化的偏见而忽视AI即与的建议等。
通常我们会觉得,人类与AI各自在不同类型的工作,或面临不同的数据类型时,二者各有所长。例如,人类更有创造力、AI更“理性”等,所以二者的结合或许才有更好的效果。
那么,在不同情境下人类-AI协同的表现到底如何呢?
研究表明,任务类型对人类与AI强协同效应具有显著的影响。
图丨调节变量的三级元回归模型的结果(来源:arXiv)
具体而言,在进行决策类任务时,即要求参与者从预设选项中做选择的任务,人类与AI的配合实际上导致了效率降低,其强协同效应呈负值。
这或许是因为,在多数决策任务中,虽然人与AI共同参与决策过程,但最终决断权往往掌握在人类手中,AI的协同并不能够发挥充分的作用。
相反,在创造性任务中,即参与者需产出开放性答案时,强协同效应就转为了正值,所以在这类任务中,人类与AI协作可以带来显著的正面影响。这也在一定程度上符号我们的通常认知。
另外,团队观察到人类与AI各自表现的相对水平对两种协同效应有重要影响。
当人类单独的表现超过AI时,人类-AI协作的表现超越了双方单独表现,强协同效应的平均值为正向的(g=0.46,属于中等效应)。
相反,当AI单独的表现超过人类时,人类-AI协作的表现相较于单独的AI反而下滑,强协同效应的负面值为(g=-0.54,同样为中等效应)。
课题组认为,这可能是因为,当人类整体上优于算法时,他们不仅在任务执行上更为出色,也更擅长判断何时信赖自己的直觉、何时采纳算法的建议。
例如,在此前的一项研究中,人类与AI协作进行虚假酒店评论识别时,AI单独识别的准确率为73%,人类的准确率为55%,而人机协作的准确率却降为69%。
这或许就是因为人类总体准确度低于AI,而他们在何时信任自己判断、何时依赖AI方面也不够熟练,导致了整体效能不增反减。
而在鸟类图像分类任务中,AI单独准确率为73%,人类单独高达81%,而人类-AI协作的准确率则提高至90%。
在这一项任务中,人类个体表现超越了AI,人类在判断何时依靠自身判断和何时采纳AI建议上也更为精准,从而促成了协作的综合性能提升。
图丨按任务和条件分列的参与者平均准确率(来源:Proceedings of the ACM on Human-Computer Interaction)
另外,人类与AI的相对性能也同样影响人类-AI系统中弱协同模式的效应。
当AI的表现超越人类时,人类-AI系统相比于人类单独工作所展现出的增益更为显著(p<0.0001),且这种弱协同的总效应值为正,幅度达到了中到大的范围(g=0.74)。
尽管研究表明,人类与AI的结合效果可能并不一定尽如人意,但这并非否定两者的合作价值。
相反,团队强调未来应该更加深入和高效地将人类智慧与人工智能技术结合起来。
具体而言,有以下几点建议。
首先,研究发现,在实验样本分析中,有大约85%的相关评估集中于决策任务,仅约10%的研究有关于创造性任务,而恰恰正是在后一类工作中,人类与AI的协作才表现得更为突出。所以,团队认为要推进生成式AI在创造性任务中的应用。
其次,要实现人类与AI的有效协同,关键在于辨明任务各部分中人的优势所在与AI擅长的领域,并构建一个系统,根据不同子任务特性,将其恰当地分配给最适合的执行者,其重要性不亚于技术创新本身。
再次,需要建立更全面的评估框架以衡量人类-AI协作的性能表现。在当前研究中,众多实验单纯依赖单一的整体准确性指标来评判性能,却忽略了多样化的现实因素等关键属性。
例如,在放射学诊断等高风险情境下,其准确性要求就非常高,即便只是较小的概率,一旦发生错误,后果极为严重。
所以,需要构建复合性能指标,综合考量各类错误的潜在成本。
最后,团队呼吁建立统一的衡量基准,以促进研究间的系统性比较并追踪人类与AI协同领域的进步,包括任务架构、质量标准、交互协议、评估体系等。