集思广益：深度学习网络与人类合作决策的问题陈述、解释与评估

　　发布于2024-11-27　阅读（0）

扫一扫，手机访问

在人工智能、数据可视化等领域，如何利用信息显示来辅助人类做出更好的决策，是一个重要的研究目标。然而，关于决策问题的定义以及如何评估人类决策性能的实验设计，目前并没有明确的共识。最近的一篇论文提出了一个基于统计决策理论和信息经济学的决策问题定义，并提供了一个评估人类决策性能损失的框架。本文将解读这篇论文，探讨其在推动决策研究方面的意义。

三位美国专家在《Decision Theoretic Foundations for Experiments Evaluating Human Decisions》论文中提供了信息界面，以帮助决策是以人为中心的人工智能（HCAI）、可视化和相关领域的研究取得共同目标。这些专家认为，可视化研究人员强调辅助决策是数据可视化的一个重要目标。同时，在以人为中心的人工智能中，人类决策行为的实证研究也被广泛认为是“评估人工智能技术在辅助决策方面的有效性，并对人们如何与人工智能互动以做出决策形成基本理解”的必要内容。这些研究的目标是为了提高决策的准确性和效率，确保人工智能技术与人类决策者之间的良好互动，并为人们提供更好的决策支持。

他们认为，通过研究人类决策的信息显示，可以明确定义一组最小的理论承诺，从而为任务确定规范行为提供可能。幸运的是，现有的统计决策理论和期望效用理论可以应对这一挑战，并为研究决策提供了严格推导和广泛适用的框架。此外，信息经济学的发展也为决策问题的信息结构形式化提供了解决方案，这可能涉及如何设计模型预测的可视化和解释选择。

他们综合了统计决策理论和信息经济学中定义明确的决策问题的一个广泛适用的定义，并从数据驱动的界面激发了这种方法在HCAI和相关决策研究中的价值。他们的第一个贡献是建立和激励决策问题必须定义的最小组成部分集，以识别最佳决策，从而识别人类决策中的偏差。使用理性贝叶斯代理的概念，他们展示了只有当研究参与者在理论上能够从他们提供的信息中识别出规范决策时，才能考虑到绩效损失。他们发现在46项现有研究的样本中，有35项研究通过预测显示得出了关于人类决策缺陷的结论，但其中只有6项（17%）是明确的研究任务，因为参与者得到了足够的信息，至少在原则上可以确定最佳决策。他们用例子来说明这些结论的认识论风险，并为实验者提供建议，以提高其研究结果的可解释性。

论文作者背景

这篇论文的题目是《Decision Theoretic Foundations for Experiments Evaluating Human Decisions》，由Jessica Hullman, Alex Kale, Jason Hartline三位来自美国西北大学的计算机科学家合作撰写，于2024年1月25日在arXiv上发表（论文地址：https://arxiv.org/abs/2401.15106）。这三位作者都是人工智能、数据可视化、人机交互等领域的知名学者，他们的研究成果发表在顶级的学术会议和期刊上，如ACM CHI, ACM CSCW, IEEE VIS, ACM EC等。他们的研究兴趣主要集中在如何利用人工智能和数据可视化来帮助人类理解和决策复杂的不确定性问题，如风险评估、预测、推荐等。

论文主要贡献

给出了一个通用决策问题的定义，包括行动空间、状态空间、评分规则、先验信念、数据生成模型和信号策略等要素，并解释了如何利用这些要素来确定最佳行动和期望效用。

建议一个评估人类决策性能损失的框架，包括先验损失、接收损失、更新损失和优化损失等四种潜在的损失来源，并探讨如何通过实验设计和结果来估计和分析这些损失。

近年来，研究人员对人工智能辅助决策进行了编码和评估，结果显示只有少部分研究（约17%）提供了足够的信息，使参与者能够确定规范的决策。相反，大多数研究（约83%）存在决策问题的不明确和不完整，这导致了对人类决策偏差和缺陷的结论不可靠。

理论基础和方法

这篇论文的理论基础主要来自于统计决策理论和信息经济学。统计决策理论研究在不确定条件下做出最优选择的方法，关注决策者的偏好、信念和行动之间的关系，以及如何利用数据和信息更新信念和选择行动。信息经济学研究信息对经济行为和结果的影响，关注信息的生产、传播和消费机制，以及信息不对称、不完全和不可靠对市场和社会的影响。这两门学科为论文提供了重要的理论基础，帮助我们深入理解决策和信息在经济中的作用和影响。

这篇论文的方法主要基于贝叶斯理论和期望效用理论。贝叶斯理论是一种概率理论，用于描述和推理不确定性，重点是根据先验信念和观察数据计算后验信念，即在给定数据条件下某个假设或事件发生的概率。期望效用理论是一种评估风险决策的理论，关注如何根据效用函数和概率分布计算期望效用，即在不同状态下产生的效用的加权平均值。这种方法结合了贝叶斯推理和效用评估，能够提供决策制定者在面对不确定性时的最佳决策。

决策问题的定义

他们定义了一个决策问题和相应的最优行为标准，以确定相对于该标准的性能损失。他们的定义旨在对人类行为进行受控评估，也就是规范性决策研究。这种评估性研究要求能够确定研究参与者被询问的任何状态的基本事实。行为数据（可以由人类或模拟产生）是在受控条件下收集的，目的是了解信息提供引起的行为。这类研究经常用于描述某些情况下人类表现的质量（例如，人们在战略环境中根据显示器做出决策的程度），根据人类表现对不同的辅助元素进行排名（例如，不同的可视化或人工智能解释策略），或者测试关于人类如何做出决策或什么将帮助他们做得更好的假设（例如，认知强迫功能将改善人工智能辅助决策）。

最优行动和期望效用的计算

给定如上定义的决策问题，他们通过假设代理人在结果不确定的情况下具有一致的偏好并在行动之间做出最佳决定意味着什么，来计算规范（“最优”）决策。因此他们可以将实验参与者的表现解释为试图达到这一标准，并确定表现中的错误（损失）来源。

为此，他们将首先假设代理的偏好可以通过评分规则来概括. 假设他将选择最大化其预期效用（得分）的动作：

人类和AI的决策协作：决策问题的表述、解释和评价图片

描述了主体的信念分布，即主体相信世界状态的概率分布。我们可以将最优行动定义为使代理的预期效用最大化的行动：

人类和AI的决策协作：决策问题的表述、解释和评价图片

具体来说，为了计算决策任务的最优决策，他们首先定义代理在从π: Pr(θ) 或p(θ) 正如我们上面所描述的。每当信号策略未显示时π(θ |u) 直接通过信号，但确实通知θ, 我们假设，在看到信号后，代理根据他们对数据生成模型的了解，使用贝叶斯规则将他们对信号和状态的先前信念更新为后验信念π:

人类和AI的决策协作：决策问题的表述、解释和评价图片

u是一个归一化因子。注意方程3中的定义意味着要计算q(θ)代理人知道。

人类和AI的决策协作：决策问题的表述、解释和评价图片

给定这些后验信念，我们使用方程2来确定完全理性主体为了最大化其预期效用而选择的行动S.

作者的计算框架为人类和人工智能的决策协作提供了一个有用的工具，可以帮助分析和改善人类的决策行为和效果，以及提高人类的决策质量和满意度。他们的计算框架也为决策理论和方法的拓展和深入提供了一个启发和创新的空间，可以探索更多的决策因素和机制，以及更多的决策模式和策略。

人类决策性能损失的评估

使用上述框架的主要动机本质上是认识论的，它们涉及我们对实验结果的了解。为了将人类决策实验中对决策问题的反应解释为错误决策过程的证据，实验必须向参与者提供足够的信息，原则上确定用于判断其行为的规范决策。换言之，实验是否为参与者提供了足够的信息，使他们对决策问题的理解与其规范解释相一致？

他们发现神经网络模型可以重现并超越已有的心理学研究，例如前景理论，基于环境的模型，混合模型等。神经网络模型可以根据不同的假设，自动地学习出不同的风险认知函数，以及它们之间的权重。作者还发现，人类的风险认知函数是非线性的，场景相关的，以及概率和收益之间存在相互依赖的关系。这些发现说明了人类的风险决策是极为复杂的，不能归因于简单的假设。

作者使用了一个简单的指标，来衡量人类决策性能损失的程度，即人类的选择与最优选择之间的差异的平均值。作者发现，人类的决策性能损失在不同的场景中有很大的变化，从0.01到0.5不等。作者还发现，人类的决策性能损失与神经网络模型的预测误差呈正相关，即神经网络模型越难以预测人类的选择，人类的决策性能损失就越大。这说明了神经网络模型可以有效地捕捉人类的风险认知的特征，以及人类的风险决策的不理性和不一致性。

作者的评估框架为人类和人工智能的决策协作提供了一个有用的工具，可以帮助分析和改善人类的决策行为和效果，以及提高人类的决策质量和满意度。作者的评估框架也为决策理论和方法的拓展和深入提供了一个启发和创新的空间，可以探索更多的决策因素和机制，以及更多的决策模式和策略。

实证分析和结果

这篇论文的实证分析主要是对近年来人工智能辅助决策的研究进行了编码和评估，以检验这些研究是否符合决策理论的框架，是否对人类决策的缺陷或损失做出了合理的结论。作者从Lai et al.的文献综述中随机抽取了46篇研究，这些研究都是在2018年至2021年期间发表在ACM或ACL的会议上的，涉及分类或回归问题的人工智能辅助决策的实验。

作者根据以下三个方面对这些研究进行了编码。

决策理论框架的适用性：是否存在一个可以确定的真实状态，以及是否存在一个与状态相关的收益或损失。

人类决策的评估：是否对人类决策的表现或质量做出了评价或判断，例如指出了过度依赖或不足依赖人工智能的现象，或者推测了人类决策的原因或影响因素。

决策问题的明确性：是否向参与者提供了足够的信息来识别规范的决策，包括行动空间、状态空间、评分规则、先验信念、数据生成模型和信号策略等。

作者的编码结果显示，有11篇研究（24%）的任务没有一个可以确定的真实状态，例如主观的音乐或电影推荐或情感识别等，这些研究不适用于决策理论框架。剩下的35篇研究（76%）都对人类决策的表现或质量做出了评价或判断，但是只有6篇研究（17%）向参与者提供了足够的信息来识别规范的决策，而其他的29篇研究（83%）都存在决策问题的不明确和不完整，导致对人类决策的偏差和缺陷的结论是不可靠的。作者还对这些研究的具体问题和改进方法进行了详细的分析和讨论，例如缺乏先验信念的传达、缺乏后验信念的计算、缺乏评分规则的动机和比较等。作者认为，这些问题都源于研究者对决策问题的定义和传达的不足，以及对实验世界和实际世界的关系的不清楚。作者建议研究者在设计实验时，要充分考虑决策理论的框架，要明确地向参与者和读者传达决策问题的所有必要组成部分，以便对人类决策行为进行有效的评估和改进。

未来工作

这篇论文的局限性主要来自于期望效用理论和规范方法的挑战和批评。期望效用理论是一种基于理性和最优化的决策理论，它假设决策者有完全的信息和计算能力，以及一致和稳定的偏好。然而这些假设在实际世界中往往不成立，人类的决策行为可能受到认知、情感、社会、道德等因素的影响，导致偏离期望效用理论的预测。规范方法是一种基于价值和目标的决策方法，它假设决策者有一个明确的价值目标，以及一种评估不同行动对价值目标的影响的方法。然而，这些假设在实际世界中也往往不成立，人类的价值观可能是多元的、动态的、模糊的，而且可能与其他人或社会的价值观存在冲突或协调。因此，这篇论文的框架和方法可能不适用于一些主观、复杂、多目标的决策问题，也可能忽略了一些人类决策的内在价值和意义。

未来工作主要是在以下四个方面进行拓展和深入。

探索其他的决策理论和方法，例如行为经济学、多属性效用理论、多准则决策分析等，以更好地描述和评估人类的实际决策行为和偏好。

研究不同的信息显示和交互方式，例如自然语言、图形、声音、触觉等，以更好地传达和解释决策问题的各个组成部分，以及提高人类的信息接收和处理能力。

尝试不同的激励和反馈机制，例如奖励、惩罚、信誉、声誉、社会影响等，以更好地激发和维持人类的决策动机和参与度，以及提高人类的决策学习和改进能力。

展开不同的人工智能和人类的协作模式，例如辅助、建议、代理、协商、协调等，以更好地平衡和利用人工智能和人类的优势和劣势，以及提高人工智能和人类的信任和满意度。

意义和价值

这篇论文为人工智能、数据可视化、人机交互等领域的研究者提供了一个清晰和有条理的决策问题的定义和评估的框架，以便更好地设计和分析人类和人工智能的决策协作的实验。

为人工智能、数据可视化、人机交互等领域的研究者提供了一个客观和严谨的决策性能损失的评估和分析的方法，以便更好地识别和改善人类和人工智能的决策协作的效果和质量。他们提供了一个批判和反思的决策问题的传达和解释的角度，以便更好地理解和沟通人类和人工智能的决策协作的问题和挑战。他们还提供了一个启发和创新的决策问题的拓展和深入的方向，以便更好地探索和发现人类和人工智能的决策协作的可能性和潜力。

总结和展望

在论文提出了一个基于统计决策理论和信息经济学的决策问题的定义，以及一个评估人类决策性能损失的框架。他们的目的是为人工智能、数据可视化、人机交互等领域的研究者提供一个清晰和有条理的指导和参考，以便更好地设计和分析人类和人工智能的决策协作的实验。他们对近年来的相关研究进行了编码和评估，发现只有很少一部分的研究向参与者提供了足够的信息来识别规范的决策，而大多数的研究都存在决策问题的不明确和不完整，导致对人类决策的偏差和缺陷的结论是不可靠的。我们建议研究者在设计实验时，要充分考虑决策理论的框架，要明确地向参与者和读者传达决策问题的所有必要组成部分，以便对人类决策行为进行有效的评估和改进。

作者也意识到框架和方法的局限性和未来需要进行的工作。他们的框架和方法基于期望效用理论和规范方法，这些理论和方法也存在一些挑战和批评，例如不符合人类的实际决策行为和偏好，以及忽略了人类决策的内在价值和意义。他们的框架和方法也可能不适用于一些主观、复杂、多目标的决策问题，也可能不能涵盖人类和人工智能的决策协作的所有可能性和潜力。因此我们的未来工作主要是在以下几个方面进行拓展和深入：探索其他的决策理论和方法，研究不同的信息显示和交互方式，研究不同的激励和反馈机制，研究不同的人工智能和人类的协作模式。(END)

参考资料：https://arxiv.org/abs/2401.15106

本文转载于：https://www.51cto.com/article/780850.html 如有侵犯，请联系admin@zhengruan.com删除

上一篇：比亚迪即将发布元UP全新纯电SUV官图，预计3月上市引爆市场

下一篇：Rust构建的Zed编辑器已开源，支持集成OpenAI和GitHub Copilot

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

Redis内存溢出问题的原因及解决方法是什么？

Redis内存溢出问题通常是由以下几种情况引起的：Redis中存储的数据量超出服务器内存限制可能导致内存溢出。原因可能是业务量增长、数据类型增加或数据量突然增加。Redis使用内存分配器来管理内存，在频繁的数据写入和删除操作中可能会出现内存碎片化问题。这意味着尽管实际上有足够的内存空间，但无法找到连续的内存块来存储新的数据，导致内存溢出。错误的配置参数可能导致Redis在使用内存时没有适当的限制，导致内存溢出。例如，maxmemory和maxmemory-policy这些与内存相关的配置参数，如果设置不当

11分钟前内存 redis 0
正版软件

新的微软与IDC报告显示：每1美元的AI投资能够带来3.5美元的回报

微软与IDC联合发布一项研究报告，深入探讨AI在企业中的应用和商业价值。其中，71％的受访者表示已经在使用AI，企业部署AI后平均14个月获得投资回报，每一美元投资可带来3.5美元回报；52%的受访者表示缺乏熟练劳动力是实施和扩展AI的最大障碍。此外，研究发现AI在员工体验、客户互动和内部业务流程等领域带来了诸多创新突破。随着AI智能科技在社会中的广泛应用，对经济所产生的影响也变得越来越大。如今，各类组织逐渐认识到AI智能科技带来的巨大变革。然而，在投资AI智能科技时，商业意义与价值成为了决策关键。企业领

16分钟前微软人工智能生成式AI 0
正版软件

长城汽车拓展新能源市场，计划扩大直营门店网络

长城汽车计划在4S店销售模式之外开设新能源直营门店，以探索新的销售路径。据悉，该公司已开始招聘相关人才。长城汽车在过去几年中曾试图推动经销商参与建设更多元化的销售渠道，如商超店和2S店等。然而，这些举措并未达到公司的预期效果。随着新能源汽车市场的快速发展，去年长城旗下五大品牌共推出了10款新能源车型。然而，目前长城汽车的大部分经销商网络主要集中在低线城市和高线城市的非核心区域，这给新能源产品的市场推广带来了一定的障碍。为了克服这个问题，长城汽车需要重新调整经销商网络布局，将重点放在核心城市和市场潜力较大的

31分钟前长城汽车 0
正版软件

语言模型在MIT最新研究中实现了基于代码的「视觉」表征训练

只会「看书」的大语言模型，有现实世界的视觉感知力吗？通过对字符串之间的关系进行建模，关于视觉世界，语言模型到底能学会什么？最近，麻省理工学院计算机科学与人工智能实验室（MITCSAIL）的研究人员对语言模型进行了评估，重点是其视觉能力。他们通过要求模型生成和识别出越来越复杂的视觉概念，从简单形状和物体到复杂场景，来测试模型的能力。研究人员还展示了如何使用纯文本模型训练一个初步的视觉表征学习系统。通过这项研究，他们为进一步发展和改进视觉表征学习系统奠定了基础。论文链接：https://arxiv.org/a

46分钟前模型训练 0
正版软件

上汽大众ID.家族逆袭，实现单月销量破万，成为新能源市场的成功者

2月1日消息，尽管受到多重因素影响，纯电动车市场整体环比下降近35%，但上汽大众ID.家族在2024年1月却实现了单月销量破万的佳绩。这一成绩展示了ID.系列在新能源市场中的强劲实力和稳定地位。尽管年底销量翘尾效应和新能源购置税政策收紧对整体市场造成了影响，但上汽大众ID.家族仍然取得了令人瞩目的成绩。这显示了ID.系列车型的吸引力和市场需求的稳定性。在上汽大众ID.家族中，ID.3车型在1月份的销售表现尤为出色，成为销售的主力。最近，该车推出了改款车型，售价区间为16.3888—18.0888万元。新款

1小时前 20:55 上汽大众 0