发布于2024-11-27 阅读(0)
扫一扫,手机访问
在人工智能、数据可视化等领域,如何利用信息显示来辅助人类做出更好的决策,是一个重要的研究目标。然而,关于决策问题的定义以及如何评估人类决策性能的实验设计,目前并没有明确的共识。最近的一篇论文提出了一个基于统计决策理论和信息经济学的决策问题定义,并提供了一个评估人类决策性能损失的框架。本文将解读这篇论文,探讨其在推动决策研究方面的意义。
三位美国专家在《Decision Theoretic Foundations for Experiments Evaluating Human Decisions》论文中提供了信息界面,以帮助决策是以人为中心的人工智能(HCAI)、可视化和相关领域的研究取得共同目标。这些专家认为,可视化研究人员强调辅助决策是数据可视化的一个重要目标。同时,在以人为中心的人工智能中,人类决策行为的实证研究也被广泛认为是“评估人工智能技术在辅助决策方面的有效性,并对人们如何与人工智能互动以做出决策形成基本理解”的必要内容。这些研究的目标是为了提高决策的准确性和效率,确保人工智能技术与人类决策者之间的良好互动,并为人们提供更好的决策支持。
他们认为,通过研究人类决策的信息显示,可以明确定义一组最小的理论承诺,从而为任务确定规范行为提供可能。幸运的是,现有的统计决策理论和期望效用理论可以应对这一挑战,并为研究决策提供了严格推导和广泛适用的框架。此外,信息经济学的发展也为决策问题的信息结构形式化提供了解决方案,这可能涉及如何设计模型预测的可视化和解释选择。
他们综合了统计决策理论和信息经济学中定义明确的决策问题的一个广泛适用的定义,并从数据驱动的界面激发了这种方法在HCAI和相关决策研究中的价值。他们的第一个贡献是建立和激励决策问题必须定义的最小组成部分集,以识别最佳决策,从而识别人类决策中的偏差。使用理性贝叶斯代理的概念,他们展示了只有当研究参与者在理论上能够从他们提供的信息中识别出规范决策时,才能考虑到绩效损失。他们发现在46项现有研究的样本中,有35项研究通过预测显示得出了关于人类决策缺陷的结论,但其中只有6项(17%)是明确的研究任务,因为参与者得到了足够的信息,至少在原则上可以确定最佳决策。他们用例子来说明这些结论的认识论风险,并为实验者提供建议,以提高其研究结果的可解释性。
这篇论文的题目是《Decision Theoretic Foundations for Experiments Evaluating Human Decisions》,由Jessica Hullman, Alex Kale, Jason Hartline三位来自美国西北大学的计算机科学家合作撰写,于2024年1月25日在arXiv上发表(论文地址:https://arxiv.org/abs/2401.15106)。这三位作者都是人工智能、数据可视化、人机交互等领域的知名学者,他们的研究成果发表在顶级的学术会议和期刊上,如ACM CHI, ACM CSCW, IEEE VIS, ACM EC等。他们的研究兴趣主要集中在如何利用人工智能和数据可视化来帮助人类理解和决策复杂的不确定性问题,如风险评估、预测、推荐等。
给出了一个通用决策问题的定义,包括行动空间、状态空间、评分规则、先验信念、数据生成模型和信号策略等要素,并解释了如何利用这些要素来确定最佳行动和期望效用。
建议一个评估人类决策性能损失的框架,包括先验损失、接收损失、更新损失和优化损失等四种潜在的损失来源,并探讨如何通过实验设计和结果来估计和分析这些损失。
近年来,研究人员对人工智能辅助决策进行了编码和评估,结果显示只有少部分研究(约17%)提供了足够的信息,使参与者能够确定规范的决策。相反,大多数研究(约83%)存在决策问题的不明确和不完整,这导致了对人类决策偏差和缺陷的结论不可靠。
这篇论文的理论基础主要来自于统计决策理论和信息经济学。统计决策理论研究在不确定条件下做出最优选择的方法,关注决策者的偏好、信念和行动之间的关系,以及如何利用数据和信息更新信念和选择行动。信息经济学研究信息对经济行为和结果的影响,关注信息的生产、传播和消费机制,以及信息不对称、不完全和不可靠对市场和社会的影响。这两门学科为论文提供了重要的理论基础,帮助我们深入理解决策和信息在经济中的作用和影响。
这篇论文的方法主要基于贝叶斯理论和期望效用理论。贝叶斯理论是一种概率理论,用于描述和推理不确定性,重点是根据先验信念和观察数据计算后验信念,即在给定数据条件下某个假设或事件发生的概率。期望效用理论是一种评估风险决策的理论,关注如何根据效用函数和概率分布计算期望效用,即在不同状态下产生的效用的加权平均值。这种方法结合了贝叶斯推理和效用评估,能够提供决策制定者在面对不确定性时的最佳决策。
他们定义了一个决策问题和相应的最优行为标准,以确定相对于该标准的性能损失。他们的定义旨在对人类行为进行受控评估,也就是规范性决策研究。这种评估性研究要求能够确定研究参与者被询问的任何状态的基本事实。行为数据(可以由人类或模拟产生)是在受控条件下收集的,目的是了解信息提供引起的行为。这类研究经常用于描述某些情况下人类表现的质量(例如,人们在战略环境中根据显示器做出决策的程度),根据人类表现对不同的辅助元素进行排名(例如,不同的可视化或人工智能解释策略),或者测试关于人类如何做出决策或什么将帮助他们做得更好的假设(例如,认知强迫功能将改善人工智能辅助决策)。
给定如上定义的决策问题,他们通过假设代理人在结果不确定的情况下具有一致的偏好并在行动之间做出最佳决定意味着什么,来计算规范(“最优”)决策。因此他们可以将实验参与者的表现解释为试图达到这一标准,并确定表现中的错误(损失)来源。
为此,他们将首先假设代理的偏好可以通过评分规则来概括. 假设他将选择最大化其预期效用(得分)的动作:
图片
描述了主体的信念分布,即主体相信世界状态的概率分布。我们可以将最优行动定义为使代理的预期效用最大化的行动:
图片
具体来说,为了计算决策任务的最优决策,他们首先定义代理在从π: Pr(θ) 或p(θ) 正如我们上面所描述的。每当信号策略未显示时π(θ |u) 直接通过信号,但确实通知θ, 我们假设,在看到信号后,代理根据他们对数据生成模型的了解,使用贝叶斯规则将他们对信号和状态的先前信念更新为后验信念π:
图片
u是一个归一化因子。注意方程3中的定义意味着要计算q(θ)代理人知道。
图片
给定这些后验信念,我们使用方程2来确定完全理性主体为了最大化其预期效用而选择的行动S.
作者的计算框架为人类和人工智能的决策协作提供了一个有用的工具,可以帮助分析和改善人类的决策行为和效果,以及提高人类的决策质量和满意度。他们的计算框架也为决策理论和方法的拓展和深入提供了一个启发和创新的空间,可以探索更多的决策因素和机制,以及更多的决策模式和策略。
使用上述框架的主要动机本质上是认识论的,它们涉及我们对实验结果的了解。为了将人类决策实验中对决策问题的反应解释为错误决策过程的证据,实验必须向参与者提供足够的信息,原则上确定用于判断其行为的规范决策。换言之,实验是否为参与者提供了足够的信息,使他们对决策问题的理解与其规范解释相一致?
他们发现神经网络模型可以重现并超越已有的心理学研究,例如前景理论,基于环境的模型,混合模型等。神经网络模型可以根据不同的假设,自动地学习出不同的风险认知函数,以及它们之间的权重。作者还发现,人类的风险认知函数是非线性的,场景相关的,以及概率和收益之间存在相互依赖的关系。这些发现说明了人类的风险决策是极为复杂的,不能归因于简单的假设。
作者使用了一个简单的指标,来衡量人类决策性能损失的程度,即人类的选择与最优选择之间的差异的平均值。作者发现,人类的决策性能损失在不同的场景中有很大的变化,从0.01到0.5不等。作者还发现,人类的决策性能损失与神经网络模型的预测误差呈正相关,即神经网络模型越难以预测人类的选择,人类的决策性能损失就越大。这说明了神经网络模型可以有效地捕捉人类的风险认知的特征,以及人类的风险决策的不理性和不一致性。
作者的评估框架为人类和人工智能的决策协作提供了一个有用的工具,可以帮助分析和改善人类的决策行为和效果,以及提高人类的决策质量和满意度。作者的评估框架也为决策理论和方法的拓展和深入提供了一个启发和创新的空间,可以探索更多的决策因素和机制,以及更多的决策模式和策略。
这篇论文的实证分析主要是对近年来人工智能辅助决策的研究进行了编码和评估,以检验这些研究是否符合决策理论的框架,是否对人类决策的缺陷或损失做出了合理的结论。作者从Lai et al.的文献综述中随机抽取了46篇研究,这些研究都是在2018年至2021年期间发表在ACM或ACL的会议上的,涉及分类或回归问题的人工智能辅助决策的实验。
作者根据以下三个方面对这些研究进行了编码。
决策理论框架的适用性:是否存在一个可以确定的真实状态,以及是否存在一个与状态相关的收益或损失。
人类决策的评估:是否对人类决策的表现或质量做出了评价或判断,例如指出了过度依赖或不足依赖人工智能的现象,或者推测了人类决策的原因或影响因素。
决策问题的明确性:是否向参与者提供了足够的信息来识别规范的决策,包括行动空间、状态空间、评分规则、先验信念、数据生成模型和信号策略等。
作者的编码结果显示,有11篇研究(24%)的任务没有一个可以确定的真实状态,例如主观的音乐或电影推荐或情感识别等,这些研究不适用于决策理论框架。剩下的35篇研究(76%)都对人类决策的表现或质量做出了评价或判断,但是只有6篇研究(17%)向参与者提供了足够的信息来识别规范的决策,而其他的29篇研究(83%)都存在决策问题的不明确和不完整,导致对人类决策的偏差和缺陷的结论是不可靠的。作者还对这些研究的具体问题和改进方法进行了详细的分析和讨论,例如缺乏先验信念的传达、缺乏后验信念的计算、缺乏评分规则的动机和比较等。作者认为,这些问题都源于研究者对决策问题的定义和传达的不足,以及对实验世界和实际世界的关系的不清楚。作者建议研究者在设计实验时,要充分考虑决策理论的框架,要明确地向参与者和读者传达决策问题的所有必要组成部分,以便对人类决策行为进行有效的评估和改进。
这篇论文的局限性主要来自于期望效用理论和规范方法的挑战和批评。期望效用理论是一种基于理性和最优化的决策理论,它假设决策者有完全的信息和计算能力,以及一致和稳定的偏好。然而这些假设在实际世界中往往不成立,人类的决策行为可能受到认知、情感、社会、道德等因素的影响,导致偏离期望效用理论的预测。规范方法是一种基于价值和目标的决策方法,它假设决策者有一个明确的价值目标,以及一种评估不同行动对价值目标的影响的方法。然而,这些假设在实际世界中也往往不成立,人类的价值观可能是多元的、动态的、模糊的,而且可能与其他人或社会的价值观存在冲突或协调。因此,这篇论文的框架和方法可能不适用于一些主观、复杂、多目标的决策问题,也可能忽略了一些人类决策的内在价值和意义。
未来工作主要是在以下四个方面进行拓展和深入。
探索其他的决策理论和方法,例如行为经济学、多属性效用理论、多准则决策分析等,以更好地描述和评估人类的实际决策行为和偏好。
研究不同的信息显示和交互方式,例如自然语言、图形、声音、触觉等,以更好地传达和解释决策问题的各个组成部分,以及提高人类的信息接收和处理能力。
尝试不同的激励和反馈机制,例如奖励、惩罚、信誉、声誉、社会影响等,以更好地激发和维持人类的决策动机和参与度,以及提高人类的决策学习和改进能力。
展开不同的人工智能和人类的协作模式,例如辅助、建议、代理、协商、协调等,以更好地平衡和利用人工智能和人类的优势和劣势,以及提高人工智能和人类的信任和满意度。
这篇论文为人工智能、数据可视化、人机交互等领域的研究者提供了一个清晰和有条理的决策问题的定义和评估的框架,以便更好地设计和分析人类和人工智能的决策协作的实验。
为人工智能、数据可视化、人机交互等领域的研究者提供了一个客观和严谨的决策性能损失的评估和分析的方法,以便更好地识别和改善人类和人工智能的决策协作的效果和质量。他们提供了一个批判和反思的决策问题的传达和解释的角度,以便更好地理解和沟通人类和人工智能的决策协作的问题和挑战。他们还提供了一个启发和创新的决策问题的拓展和深入的方向,以便更好地探索和发现人类和人工智能的决策协作的可能性和潜力。
在论文提出了一个基于统计决策理论和信息经济学的决策问题的定义,以及一个评估人类决策性能损失的框架。他们的目的是为人工智能、数据可视化、人机交互等领域的研究者提供一个清晰和有条理的指导和参考,以便更好地设计和分析人类和人工智能的决策协作的实验。他们对近年来的相关研究进行了编码和评估,发现只有很少一部分的研究向参与者提供了足够的信息来识别规范的决策,而大多数的研究都存在决策问题的不明确和不完整,导致对人类决策的偏差和缺陷的结论是不可靠的。我们建议研究者在设计实验时,要充分考虑决策理论的框架,要明确地向参与者和读者传达决策问题的所有必要组成部分,以便对人类决策行为进行有效的评估和改进。
作者也意识到框架和方法的局限性和未来需要进行的工作。他们的框架和方法基于期望效用理论和规范方法,这些理论和方法也存在一些挑战和批评,例如不符合人类的实际决策行为和偏好,以及忽略了人类决策的内在价值和意义。他们的框架和方法也可能不适用于一些主观、复杂、多目标的决策问题,也可能不能涵盖人类和人工智能的决策协作的所有可能性和潜力。因此我们的未来工作主要是在以下几个方面进行拓展和深入:探索其他的决策理论和方法,研究不同的信息显示和交互方式,研究不同的激励和反馈机制,研究不同的人工智能和人类的协作模式。(END)
参考资料:https://arxiv.org/abs/2401.15106
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店