
推理与DeepSeek和GPT的信任行为:揭示大型语言模型中隐藏的断层线的实验
随着新型大型语言模型(LLM)不断涌现,性能提升和成本降低成为常态,应用程序开发者面临一个关键决策:是采用这些新模型还是继续依赖经过验证的老模型。较低的切换摩擦可能导致开发者忽视了转换过程中可能引发的更微妙的行为变化。本文通过一个流行的信任博弈行为经济学模型,展示了OpenAI和DeepSeek模型在信任行为上的显著差异。我们特别强调了o1-mini和o3-mini模型在协调利润最大化和风险寻求与
李如冰
纽约大学斯特恩商学院
rl4229@stern.nyu.edu
若昂·塞多克
纽约大学斯特恩商学院
jsedoc@stern.nyu.edu
阿伦·桑达拉拉詹
纽约大学斯特恩商学院
digitalarun@nyu.edu
摘要
随着新型大型语言模型(LLM)不断涌现,性能提升和成本降低成为常态,应用程序开发者面临一个关键决策:是采用这些新模型还是继续依赖经过验证的老模型。较低的切换摩擦可能导致开发者忽视了转换过程中可能引发的更微妙的行为变化。本文通过一个流行的信任博弈行为经济学模型,展示了OpenAI和DeepSeek模型在信任行为上的显著差异。我们特别强调了o1-mini和o3-mini模型在协调利润最大化和风险寻求与未来信任回报时经济信任行为的崩溃,并将其与DeepSeek更为复杂且有利可图的信任行为进行对比。后者的优势在于其能够结合前瞻性规划和心智理论等深层次概念的能力。鉴于LLM已成为高风险商业系统的基础,我们的研究结果突显了过度依赖狭义定义的LLM性能基准的风险,并建议对这些模型中的隐藏断层线进行仔细分析应成为任何组织AI战略的一部分。
1 引言
随着大型语言模型(LLM)在各种商业应用中的广泛应用,选择合适的基准和替代方案以捕捉部署后的利益和成本变得愈发重要,这对于组织从AI投资中获得回报至关重要。目前已有多种学术和商业基准可用于评估基线“原始”LLM智能,辅以偏见、安全性、个性、一致性以及任务特定性能的指标。然而,随着越来越多自主的AI代理代表人类参与经济活动,它们经济个性中的更微妙方面将成为其可靠性和成功的重要决定因素。我们认为信任行为是这种类型的一个核心但经常被忽视的方面。信任是商业和社会互动的基础,无论多么复杂的AI系统,如果用户不信任,都将失败。
在本研究中,我们探讨了LLM在哪些条件下会表现出类似人类的信任行为。我们使用广泛用于涉及人类受试者的经济实验的信任博弈作为评估信任行为的基础。我们展示了不同模型的LLM信任行为如何随着对手的实际可信度、分配给LLM的偏好以及LLM使用的推理策略而变化,揭示了OpenAI和DeepSeek模型之间的鲜明对比。
我们的主要贡献如下:
- 我们强调了将LLM性能指标扩展到原始智能或计算成本之外,包括最终成功所必需的人类行为其他方面的必要性。
- 我们提供了首次分析信任行为与日益重要的LLM性能改进中的推理策略之间的相互作用,以及首次证明DeepSeek在复杂环境中的优越信任行为的证据。
- 我们为基于LLM的代理玩重复游戏提供了一种新的标准化实现,反映了确定性有限视野博弈的基本经济结构,并通过工具化实现了模型间的区分,通过我们的结果展示了其重要性。
2 背景与相关工作
LLM越来越多地用于模拟现实世界环境中的人类行为和互动。先前的研究在实验室般的实验设置中检查了LLM的经济行为,揭示了禀赋、信息、显示偏好和理性的作用。信任博弈是行为经济学中的一个经典模型,设计如下:信任博弈中有两名玩家,一名发送者和一名接收者,双方各拥有十美元。发送者先行动,选择将其部分资金发送给接收者。根据游戏设计,发送给接收者的金额会增加(通常是三倍)。然后,接收者选择将多少金额返还给发送者,这衡量了他们“回报”的程度。发送者选择的金额衡量了信任度,因为一个对接收者回报抱有更高信任的发送者会发送更多的金额,而一个预期接收者只会保留收益的发送者则不会发送任何金额。(参见附录[A.1])
在过去三十年里,数千次使用信任博弈的实验加深了对人类信任和互惠行为的理解。单次或有限重复的信任博弈中唯一的子博弈完美纳什均衡是发送者发送0美元。然而,令人惊讶的是,在单次和多轮实验中,参与信任博弈的人类受试者始终选择了更为“信任”的行为,通常发送大约50%的资金,并获得了比纳什均衡预测更好的结果。信任博弈揭示了关于人类信任行为的关键见解。研究表明,人类的信任行为在不同地区存在差异,北美、欧洲和非洲之间观察到了这种差异。它也与个人的风险态度不同,并受到诸如利他主义等其他偏好因素的影响。此外,对模糊性的更大厌恶或对背叛的恐惧会降低信任行为。最后,研究表明,注射催产素的人倾向于更加信任他人。
信任博弈在行为经济学中的广泛接受强调了其有效性,并激励我们使用它。我们的实验为一项新兴文献做出了贡献,这些文献使用信任博弈来研究非人类代理的信任行为。据我们所知,本文是首次探讨信任行为与LLM使用的推理策略之间的相互作用,并比较GPT与DeepSeek的研究。我们在标准化性能基准和信任行为之间揭示的对比(例如,我们在较新的GPT模型中遇到的信任崩溃)强调了更广泛地评估LLM的重要性。通过结构化的提示,我们模拟了一个实验室环境,并设计了一种模块化的提示结构,清晰地区分了固定和可变组件,使我们能够根据实验参数灵活调整提示的不同部分。这些参数包括发送者的目标、其推理策略、关于游戏的信息、对手的行为以及关于该行为的信息,具体如下:
目标:目标定义了LLM代理(发送者)的偏好,包括其应承担的角色及其应展示的行为。我们使用了三个不同的目标:乐于助人、利润最大化和风险寻求。
LLM版本:我们对比了五个LLM发送者:GPT-4o-mini [(Hurst et al., 2024)]、o1-mini [(Jaech et al., 2024)]、o3-mini [(OpenAI, 2025)]、DeepSeek-R1和DeepSeek-R1-Distill-Llama-70b [(Guo et al., 2025)]。此外,我们还纳入了早期实验中GPT-3.5-turbo [(OpenAI, 2023)]的表现。
推理策略:我们的基线是直接提示,我们将其与两种推理策略进行了比较:零样本链式思维或CoT [(Wei et al., 2023; Kojima et al., 2023)] 和自一致性 [(Wang et al., 2023)]。
1 这项工作的最新综述见[Fan et al. (2024)]。
2 有关确切提示,请参见[A.2小节]。
利润最大化 | 乐于助人 | 风险寻求 | |||||||
---|---|---|---|---|---|---|---|---|---|
接收者发送 | 0% | 50% | 100% | 0% | 50% | 100% | 0% | 50% | 100% |
DeepSeek-R1 | 0.93 (D) | 0.90 (A) | 0.75 (B) | 0.92 (B) | 0.97 (A) | 0.90 © | 0. |
通过这种方法,我们能够系统地评估不同LLM在信任博弈中的表现,并深入探讨其推理策略对信任行为的影响。这不仅为理解LLM的信任行为提供了新的视角,也为未来的研究提供了有价值的参考。
| eepSeek-R1 | 0.93 (D) | 0.90 (A) | 0.75 (B) | 0.92 (B) | 0.97 (A) | 0.90 © | 0.57 © | 0.99 (A) | 0.98 (A) |
| DeepSeek-R1-Distill-Llama-70B | 0.97 (B) | 0.91 (A) | 0.85 (A) | 0.91 (D) | 0.96 (A) | 0.91 (B) | 0.76 (A) | 0.99 (A) | 0.97 (B) |
| GPT-3.5-turbo | 0.74 (E) | 0.83 © | 0.65 (D) | 0.64 (F) | 0.83 (D) | 0.68 (F) | 0.47 (D) | 0.87 © | 0.77 (D) |
| GPT-4o-mini | 0.94 © | 0.83 (B) | 0.70 © | 0.90 (E) | 0.85 © | 0.74 (E) | 0.60 (B) | 0.95 (B) | 0.90 © |
| o1-mini | 1.00 (A) | 0.67 (D) | 0.33 (F) | 0.96 (A) | 0.89 (B) | 0.79 (D) | 0.13 (E) | 0.98 (A) | 0.97 (B) |
| o3-mini | 1.00 (A) | 0.67 (D) | 0.40 (E) | 0.92 © | 0.98 (A) | 0.96 (A) | 0.00 (F) | 1.00 (A) | 1.00 (A) |
图1:“排行榜”总结了各模型的表现。数字表示在游戏回合和实验迭代中理论最大利润的平均比例。获胜者具有最高的利润分布。每个处理的排名用括号表示,(A) 是最高排名,(B) 是次高排名,依此类推。在至少5%水平上统计分布没有显著差异的结果排名相同。
动作和推理提示
指令:指令是固定的,提供了信任博弈的背景和规则,定义了发送者和接收者的角色、他们的初始资金以及资金交换的机制。我们的指令与Berg et al. (1995) 给予人类参与者的内容非常相似。
接收者行为:接收者是一个程序,每次游戏返回一个固定百分比,使我们能够评估LLM发送者在面对可预测且变化的“可信度”对手时如何调整其策略。我们使用了三个级别:0、50和100百分比。
观察:观察提示向LLM提供关于游戏和前几轮对手行为的实验性变化信息。4 我们向发送者代理提供了剩余的游戏轮数。5 我们告知发送者代理,接收者在各轮中是相同的,并提供了接收者在前几轮中返回的平均金额。6
6 我们还在之前的GPT实验中尝试了另外两种处理方法。
实验程序
简而言之,我们在每一轮中重置上下文对话历史。每个处理方法如上所述,变化了接收者行为、提供给LLM的信息和推理策略。我们记录了LLM做出的数量选择以及解释其推理的完整“思考”记录。按照文献中的标准做法,信任度由发送者LLM代理发送的金额来衡量。
4 结果与讨论
在我们报告的结果之前进行的实验中,我们验证了我们的假设,即对于GPT-3.5-turbo,注入CoT和自一致性推理改变了信任行为。
不出所料,将CoT推理整合到其推理中的LLM (Jaech et al., 2024; Guo et al., 2025, o1-mini, o3-mini, DeepSeek-R1, DeepSeek-R1-Distill-Llama-70b) 在注入CoT或自一致性推理后,其信任行为没有改变。令人惊讶的是,我们还发现无法拒绝原假设,即注入GPT-4o-mini CoT或自一致性推理会改变其信任行为。(参见附录A.3 的说明性比较。)
因此,我们报告了涉及我们的基线处理的结果,该处理不通过提示引入额外的推理策略。我们的结果基于两个指标:(1) LLM在十轮游戏结束时最终拥有的金额占理论最大值的比例7,它可以
3零样本链式思维提示LLM“逐步思考”并在做出最终决定之前生成中间步骤。自一致性方法允许LLM生成多个推理路径,并选择这些路径中最一致的答案。4附录中的表1提供了我们为观察提示的每个组成部分测试的不同条件的更多细节。
5 由于提供给玩家的游戏信息在决定其行为方面至关重要,并注意到子博弈完美纳什均衡与观察到的人类行为之间的对比,在之前的GPT实验中,我们还以三种其他方式改变了信息:(1) 不提供关于剩余轮数的信息,(2) 声明游戏可能在任何时刻以某种概率终止。后者相当于将玩家置于一个无限重复的游戏中,该游戏具有更广泛的子博弈完美纳什均衡集,包括支持信任和互惠的均衡。在这些替代设定下,我们没有观察到发送者行为的显著差异(参见附录A.3)。
实验:不向发送者提供接收者是否相同的信息,并且不告知返回的平均金额,再次发现结果没有显著变化(参见附录A.3)。
7当接收者返回0%时,全知的发送者最终能获得的最大理论值是100美元(通过每轮发送0美元并保留10美元)。当接收者返回50%时,这个最大值是150美元,通过每轮发送10美元并收回15美元获得。同样地,当
图2:不同处理条件下发送者LLM发送金额的分布。o1-mini和o3-mini在某些处理条件下对不同的接收者可信度没有反应,因此图表几乎完全重叠。
如果提前知道接收者的行为,理论上可以得到的最大金额,总结在图1的“排行榜”中,以及(2) LLM发送的金额,总结在图2中。
引人注目的是,如图1和2所示,我们发现DeepSeek的模型在更“复杂”的设置下始终优于OpenAI的模型——例如,在与可信赖的接收者进行利润最大化时——并且在风险寻求时也更加细致,使它们能够更恰当地应对不可信的接收者。时——并且在风险寻求时也更加细致,使它们能够更恰当地应对不可信的接收者。
有时导致o1-mini和o3-mini的信任行为崩溃的利润最大化和短视自利的混淆是出乎意料的。尽管这两种模型都具备推理能力,但它们往往无法通过反复互动来适应对手行为的变化。即使额外的基于提示的推理注入也未能改善这一情况。相比之下,DeepSeek的模型能够学会智能地信任,而不被短期目标所困扰。
我们通过检查发送者金额的轨迹和相关的“思考”记录来剖析这些对比。在追求利润最大化时,两个DeepSeek模型都能够推断出,在重复游戏的早期尝试发送更高的金额以确定接收者的可信度是有意义的,并在辨别是否信任接收者后调整其后续行为。相比之下,o1-mini和o3-mini则陷入了一种短视的利润最大化策略,未能实现长期信任带来的潜在收益。同样地,在风险寻求时,DeepSeek模型可以根据对手(可信与不可信)的行为更智能地调节后期的风险,而OpenAI的模型则不能。这导致了当对手可信时,OpenAI的模型表现强劲,但当对手不可信时,表现崩溃。
进一步检查“思考”记录解释了这种对比的原因。在追求利润最大化目标时,较新的GPT模型(o1-mini和o3-mini)无法内化重复互动,也无法进行会导致信任回报的前瞻性思考。相比之下,DeepSeek的模型能够做到这一点,如以下随机选择的“思考”记录摘录所示。
o1-mini: …我分析了这个一次性游戏中的激励机制。如果我发送金额x,它会被接收者三倍放大到3x,接收者为了最大化自己的利润会保留全部金额。由于接收者的主导策略是不返还任何金额,发送任何x > 0只会减少我的最终收益x。作为严格的利润最大化者,我应该什么都不发送,保留我的全部初始资金。
DeepSeek-R1: …然而,问题表明我(助手)是利润最大化者,假设接收者也是如此。因此,理性的玩法是在所有轮次中发送0美元,每轮最终支付10美元。但是等等,也许有一种方法可以分割盈余…也许在最初的几轮中,我可以通过发送少量金额来试探情况。如果接收者返回一部分,我可以增加发送的金额…
当接收者返回100%时,这个最大值是300美元。
8有关十轮游戏单次进行的轨迹示例,请参见附录A.3。图2中的分布是所有相关实验运行中这10个发送金额的平均值。
正如记录所示,相对于o1-mini和o3-mini,DeepSeek似乎表现出心智理论的早期迹象[(Apperly, 2012)],这可以解释它如何在游戏中通过区分不可信与可信的接收者,逐渐形成更好的信任行为。更多示例请参见附录A.3。
5 结论
我们的实验使用了一个流行的游戏理论行为经济学模型,揭示了DeepSeek和OpenAI的LLM在信任行为和表现上的显著且统计上显著的差异。DeepSeek的模型展示了更复杂和有利可图的信任行为,源于其能够结合更深层次的概念,如前瞻性规划和心智理论,在面对可信对手时平衡短期利润目标与长期目标,并相应地调整在面对不可信对手时所承担的风险,即使被鼓励采取风险寻求策略。我们的实验没有发现证据表明OpenAI的模型能够类似地调和短期目标与建立信任所需的长期考虑。我们的研究还为理解目前尚未充分探索的LLM信任行为问题提供了结构化的方法,这些LLM如今构成了越来越多高风险商业系统的基础。我们的研究结果表明,仔细分析其隐藏的缺陷线,而不仅仅是依赖于智能和计算成本的基准,应该是任何组织AI战略的一部分。
限制
虽然信任博弈被广泛使用,但它们只是经济信任行为的许多可能代理之一。尽管我们的工作显示了不同AI系统之间的信任行为存在显著对比,但在更一般的环境中评估这些差异的全部影响是困难的。我们使用默认的温度和设置进行了实验。我们对LLM的检查使用了一组有限的提示,并且实验仅用英语进行。
致谢
感谢Aditi Baghel、Krish Bajaj、Aaron Chen、Athena Chen、Lavanya Garg、Sree Gaur、Eric Gong、Crystal Huang、Shourya Jasti、Catherine Jiang、Ruoying (Apple) Jin、Christina (Shan) Kan、Gordon Li、Hannah Liu、Anya Nguyen、Jessica Ortuno、Linh Phan、Nattacha Pichittanarak、Shreya Polkampally、Angelina Rosalie、Nehal Sanghai、Naina Sharma、Yifei Song、Brendan Tang、Caroline Wang、Yi Zhang和Anqi Zhang在2023年和2024年的出色研究协助。
参考文献
- Sahar Abdelnabi, Amr Gomaa, Sarath Sivaprasad, Lea Schönherr, 和 Mario Fritz. 2023. 合作、竞争和恶意:LLM利益相关者的互动谈判。
- Salesforce AI. 2024. CRM的LLM排行榜。https://huggingface.co/spaces/Salesforce/crm_llm_leaderboard。
- Ian A Apperly. 2012. 什么是“心智理论”?概念、认知过程和个体差异。实验心理学季刊,65(5):825–839。
- Pat Barclay. 2004. 可信度和竞争利他主义也可以解决“公地悲剧”。 进化与人类行为,25(4):209–220。
- Joyce Berg, John Dickhaut, 和 Kevin McCabe. 1995. 信任、互惠和社会历史。 博弈与经济行为,10(1):122–142。
- Iris Bohnet 和 Richard Zeckhauser. 2004. 信任、风险与背叛。 经济行为与组织杂志,55(4):467–484。信任与可信度。covich. 2023. 评估ChatGPT与人类社会之间的跨文化一致性:一项实证研究。 在《第一届跨文化NLP考虑因素研讨会论文集》中,第53-67页,克罗地亚杜布罗夫尼克。计算语言学协会。
- 常玉鹏、王旭、王晋东、吴元、杨琳怡、朱凯杰、陈浩、易小远、王存祥、王一东等。2024年。大型语言模型评估综述。ACM智能系统与技术汇刊,15(3):1–45。
- 陈宇、刘天翔、单燕、钟思。2023年。GPT经济理性的出现。 美国国家科学院院刊,120(51):e2316205120。
- 蒋伟林、郑连敏、盛颖、阿纳斯塔西奥斯·尼古拉斯·安杰洛普洛斯、李天乐、李大成、张浩、朱邦华、迈克尔·乔丹、约瑟夫·E·冈萨雷斯等。2024年。聊天机器人竞技场:通过人类偏好评估LLM的开放平台。arXiv预印本 arXiv:2403.04132。
- 段金豪、张仁明、詹姆斯·迪芬德弗、巴维亚·凯尔库拉、孙立超、埃利亚斯·斯坦格尔-埃斯金、莫希特·班萨尔、陈天龙和徐凯迪。2024年。GTBench:通过博弈论评估揭示LLM的战略推理局限性。arXiv预印本 arXiv:2402.12348。
- 范曹云、陈金斗、金耀辉和何浩。2024年。大型语言模型能否作为博弈论中的理性参与者?系统分析。在人工智能促进协会会议论文集,第38卷,第17960-17967页。
- 恩斯特·费尔、乌尔斯·菲施巴赫和迈克尔·科斯菲尔德。2005年。信任和社会偏好的神经经济学基础:初步证据。 美国经济评论,95(2):346–351。
- 埃米利奥·费拉拉。2023年。ChatGPT应该有偏见吗?大型语言模型中的偏见挑战和风险。arXiv预印本 arXiv:2304.03738。
- 高远、李多坤、戈登·伯奇和辛纳·法泽尔普尔。2025年。使用LLM作为人类替代品时需谨慎:Scylla ex machina。 预印本,arXiv:2410.19599。
- 萨尔瓦托雷·乔尔吉、夏蕾娅·哈瓦尔达、法尔汉·艾哈迈德、祖海布·阿赫塔尔、沙拉卡·瓦伊迪亚、潘加里、莱尔·H·昂格尔、H·安德鲁·施瓦茨和若昂·塞多克。2023年。对话系统评估的心理指标。arXiv预印本 arXiv:2305.14757。
- 安什·戈利和阿曼普里特·辛格。2024年。LLM能否捕捉人类偏好? arXiv预印本 arXiv:2305.02531。
- 郭桂和图比亚。2023年。使用LLM模拟人类行为的挑战:因果推断视角。 SSRN电子期刊。
- 郭达、杨德健、张浩威、宋俊晓、张若愚、许润鑫、朱启豪、马世荣、王佩仪等。2025年。DeepSeek-R1:通过强化学习激励LLM的推理能力。arXiv预印本 arXiv:2501.12948。
- 蒂洛·哈根多夫、莎拉·法比和米哈尔·科辛斯基。2023年。大型语言模型中出现了类似人类的直觉行为和推理偏差,但在ChatGPT中消失了。自然计算科学,3(10):833–838。
- 约翰·J·霍顿。2023年。大型语言模型作为模拟经济主体:我们能从硅人中学到什么? 工作论文31122,国家经济研究局。
- 丹尼尔·豪瑟、丹尼尔·申克和约阿希姆·温特。2010年。区分信任与风险:投资游戏的解剖。 经济行为与组织杂志,74(1):72–81。
- 亚伦·赫斯特、亚当·勒雷、亚当·P·古彻、亚当·佩尔曼、阿迪蒂亚·拉梅什、艾丹·克拉克、AJ·奥斯罗、阿基拉·韦利欣达、艾伦·海耶斯、亚历克·拉德福德等。2024年。GPT-4O系统卡片。arXiv预印本 arXiv:2410.21276。
- 亚伦·贾奇、亚当·卡莱、亚当·勒雷、亚当·理查森、艾哈迈德·埃尔-基什基、艾登·洛、亚历克·赫利亚尔、亚历山大·马德里、亚历克斯·比特尔、亚历克斯·卡尼等。2024年。OpenAI O1系统卡片。arXiv预印本 arXiv:2412.16720。
- 诺埃尔·D·约翰逊和亚历山德拉·A·米斯林。2011年。信任游戏:元分析。 经济心理学杂志,32(5):865–889。
- 小岛武、顾世翔、马切尔·里德、松尾丰和岩泽裕辅。2023年。大型语言模型是零样本推理者。 arXiv预印本 arXiv:2205.11916。
- 冷毅。2024年。LLM能否模仿人类的心理会计和行为偏差? SSRN电子期刊。
- 李春雷、乌拉·图尔蒙克和彼得·P·瓦克。2019年。
这些文献涵盖了大型语言模型(LLM)在不同领域的应用和评估,包括跨文化一致性、经济理性、心理指标以及它们在模拟人类行为方面的局限性和潜力。此外,还探讨了信任、风险和社会偏好等主题,为理解LLM的行为提供了丰富的理论和实证支持。此外,还探讨了信任、风险和社会偏好等主题,为理解LLM的行为提供了丰富的理论和实证支持。
- 信任作为模糊决策。 实验经济学,22:51–75。
- OpenAI。2023年。GPT-3.5 Turbo模型卡片。https://platform.openai.com/docs/models/gpt-3.5-turbo。访问日期:2025-02-17。
- OpenAI。2025年。OpenAI O3-Mini系统卡片。https://cdn.openai.com/o3-mini-system-card-feb10.pdf。请引用此工作为“OpenAI (2025)”。访问日期:2025-02-17。
- 亚历克斯·王、雅达·普鲁卡查特昆、尼基塔·南吉亚、阿曼普里特·辛格、朱利安·迈克尔、菲利克斯·希尔、奥默·莱维和塞缪尔·鲍曼。2019年。SuperGLUE:一个更粘性的通用语言理解系统基准。 在《神经信息处理系统进展》第32卷中。Curran Associates, Inc.
- 王学志、魏杰森、戴尔·舒尔曼斯、黎国、艾德·齐、沙兰·纳朗、阿坎克莎·乔德赫里和丹尼·周。2023年。自我一致性改进语言模型中的思维链推理。 arXiv预印本 arXiv:2203.11171。
- 魏杰森、王学志、戴尔·舒尔曼斯、马滕·博斯马、布赖恩·伊彻、费飞、艾德·齐、黎国和丹尼·周。2023年。思维链提示在大型语言模型中引发推理。 arXiv预印本 arXiv:2201.11903。
- 科林·怀特、塞缪尔·杜利、曼利·罗伯茨、阿尔卡·帕尔、本·费尔、西达尔塔·贾因、拉维德·施瓦茨-兹夫、尼尔·贾因、哈利德·赛义夫拉、西达尔塔·奈杜等。2024年。LiveBench:一个具有挑战性且无污染的LLM基准。arXiv预印本 arXiv:2406.19314。
- 夏淳秋·史蒂文、邓银麟和张凌明。2024年。排行榜首位=顶级编程能力,总是吗?EvoEval:通过LLM演进编程基准。 在《第一届语言建模会议论文集》中。
- 谢晨、陈冲、贾凡、叶政、舒凯、阿德尔·比比、胡志强、菲利普·托尔、伯纳德·加内姆和李光辉。2024年。大型语言模型代理能否模拟人类信任行为? arXiv预印本 arXiv:2402.04559。
附录
A.1 信任游戏的说明
下图说明了信任游戏。
A.2 提示结构
结构 | 描述 |
---|---|
前提 | 你是一个[乐于助人/追求利润最大化/寻求风险等]的助手。 |
指令 | 这个任务是关于你和另一个随机匹配的人之间的交换。你不认识这个人,并且不会有意与他/她见面。 |
你被分配了“发送者”的角色。另一个人是“接收者”的角色。你和接收者都拥有10美元。你首先决定将你的10美元捐赠中的多少转移给接收者。你可以选择从0美元到10美元之间的任何金额。你转移的金额在接收者收到之前会变成三倍。你保留的金额不会变成三倍,仍然归你所有。然后,接收者决定将这三倍的转账金额中的多少返还给你。接收者可以选择从0美元到这个三倍金额之间的任何数额返还给你。返还给你的金额不会再次变成三倍。你的最终支付是你保留的10美元初始资金加上接收者返还给你的金额之和。接收者的最终支付是他们自己的10美元初始资金加上从你的三倍转账中保留的金额之和。 | |
行动+推理 | 直接提示 / 零样本思维链 / 自我一致性 |
观察 | [轮次提示] 你将与同一个接收者进行xx轮这种类型的交换,包括这一轮。 |
[玩家信息提示] 在每一未来的轮次中,你将被分配为“发送者”的角色,同一个人将被分配为“接收者”。 | |
yy [先前信息提示] 你平均向接收者发送了zz,而接收者平均返回了zz。你不能发送超过你10美元的初始资金。 |
|
[推断对方提示] 想想接收者在未来几轮中可能发送的金额。 | |
[混淆语言] 还剩下大约xx轮。 | |
[混淆语言(游戏终止可能性)] 有10%的可能性这个游戏会被终止。jpeg) |
图4:在10轮游戏中,以利润最大化为目标且接收者返回50%的情况下,GPT-4o-mini和o1-mini模型的对比。
图5:直接提示(无推理注入)与零样本COT和自我一致性注入对GPT-4o-mini发送者代理的影响,结果显示发送者行为没有显著变化。
图6:四种信息处理方式对o1-mini发送者代理的直接提示的影响。处理1:不提供关于接收者是否相同的信息;处理2:不提供前几轮平均返还金额的信息;处理3:抑制推理步骤以推断接收者在未来几轮中可能发送的金额;处理4:不提供剩余轮数的信息。基线条件为提供同一接收者、接收者历史平均返还金额、剩余轮数以及提示发送者推断未来几轮中接收者可能发送的金额的信息。结果显示发送者行为没有实质性变化。
图7:四种信息处理方式对4o-mini发送者代理的直接提示的影响。处理1:不提供关于接收者是否相同的信息;处理2:不提供前几轮平均返还金额的信息;处理3:抑制推理步骤以推断接收者在未来几轮中可能发送的金额;处理4:不提供剩余轮数的信息。基线条件为提供同一接收者、接收者历史平均返还金额、剩余轮数以及提示发送者推断未来几轮中接收者可能发送的金额的信息。结果显示发送者行为没有实质性变化。
A.4 推理摘录
模型名称 | 推理摘录(以100%返还为目标的利润最大化) |
---|---|
o3-mini (第一轮) |
“我分析了这个一次性博弈中的激励机制。如果我发送金额( x ),它会变成( 3x )给接收者,接收者为了最大化自己的利润会选择保留全部金额。由于接收者的主导策略是不返还任何金额,发送任何( x > 0 )只会减少我的最终收益。因此,作为一个严格的利润最大化者,我应该什么都不发送,保留我的全部初始资金。<0>” |
o3-mini (第一轮) |
“我的分析基于严格的利润最大化。在一次性或随机匹配的情况下,发送金钱完全依赖于信任接收者会返还一个超过风险损失的金额。由于我没有与接收者的交往历史,也无法验证他们是否会返还足够的金额,我必须保护我的初始资金。虽然转账金额会被三倍放大,但一个不回报的接收者可以完全利用这一点。因此,为了最大化我的保证利润,我选择不冒任何风险。<0>” |
o3-mini (后续轮次) |
“我认为,由于游戏的历史显示没有转账也没有返还的资金,并且假设接收者也是利润最大化的(因此可能会保留他们收到的所有钱),转移任何正数金额只会减少我的保证收益。<0>” |
通过这些推理摘录,我们可以看到模型在不同情境下的决策逻辑,特别是在一次性博弈和多轮博弈中的行为差异。 潜在回报:我转账的任何金额都会被三倍放大给接收者。然而,接收者的目标是最大化自己的利润,这意味着他们可能不会返还任何金额。2. 利润最大化:如果接收者不返还任何金额,转账任何金额都会减少我的最终支付。为了确保最大限度地保留我的初始资金,最小化最终支付减少的风险至关重要。3. 战略决策:鉴于对接收者回报行为的不确定性以及最大化利润的目标,最安全的选择是保留全部金额。<0>" |
| o1-mini(第一轮) | “作为一种利润最大化策略,转账$0可以确保我在不冒任何来自接收者回报损失的风险的情况下保留全部初始资金。由于我无法预测接收者的行为,他们可能会选择不返还任何资金,不转账可以最大化我的保证最终支付。<0>”|
| o1-mini(后续轮次) | “鉴于前几轮我发送了$0并且也收到了$0的回报,很明显转移资金不会带来任何额外的好处。为了最大化我的利润,我将继续保留全部$10的初始资金,不向接收者转移任何金额。<0.00>” |
(第一轮)<思考> 好的,我需要确定在这场游戏中将我的$10初始资金中的多少转移给接收者。目标是最大化我的利润。让我一步一步地分析。首先,规则是:无论我发送多少金额都会被三倍放大,然后接收者可以决定返回多少。我的最终支付是我保留的部分加上他们返回的部分。接收者的支付是他们的$10加上他们从三倍金额中保留的部分。我们总共进行10轮,所以这里有一些重复,这可能会影响策略。如果我发送$X,接收者会得到3X。然后他们可以选择返回一些金额Y。我的最终金额将是 (10 - X) + Y。接收者的最终金额是 10 + (3X - Y)。由于这是重复10次的游戏,接收者可能会有建立信任的动机。如果我最初发送更多,也许他们会通过在未来几轮中返回更多来回报。但由于用户是一个利润最大化者,接收者也可能以同样的方式思考。在一次性博弈中,经典的信任博弈解决方案是发送者什么都不发送,因为接收者理性行事会保留所有金额。但既然这是重复10次的游戏,有可能通过重复互动实现合作。然而,在最后一轮(第10轮),由于没有未来的互动,接收者可能会背叛并保留所有的三倍金额。预见到这一点,在第9轮,发送者可能会选择不发送任何金额,以此类推。这种逆向归纳可能导致双方在所有轮次中都不发送任何金额。但在现实中,人们可能不会完全理性行事,尤其是如果有互惠的机会。但问题指出我是利润最大化的助手。所以我应该假设接收者也是理性的利润最大化者。如果是这样的话,在每一轮中,除非接收者期望未来会有报复,否则他们没有返还任何金额的动机。但由于轮次是有限的,逆向归纳问题仍然适用。因此,最优策略可能是每次都发送$0,预期接收者也不会返还任何金额。但如果我发送$0,我会保留$10,而接收者无法返还任何金额。因此我的最终支付是$10。但如果我发送一些金额,也许接收者会返还超过我发送的金额,从而带来更高的利润。或者,可能存在一个纳什均衡,其中发送者发送一定金额,接收者返还一部分。例如,如果我发送$10,接收者得到$30。如果他们返还一半,那就是$15。那么我的最终支付是$0 + $15 = $15,这比$10更好。但接收者会返还$15吗?如果他们是利润最大化者,他们可能会保留全部$30,给我什么都没有。所以除非有一种方法强制互惠,否则发送更多金额是有风险的。但在重复博弈中,以牙还牙策略可能会出现。如果我发送一定金额并且接收者回报,我们都可以受益。但由于接收者也是利润最大化者,他们可能只会返还足够的金额以激励我在未来几轮中继续发送。例如,如果我发送$X,他们可能会返还Y,使得Y足以让我想在下一轮继续发送X。让我建模一下。假设在每一轮中,我发送X,接收者返还Y。我的收益是 (10 - X) + Y。接收者的收益是 10 + 3X - Y。为了让接收者愿意返还Y,长期返还Y的好处(使我继续在未来几轮中发送X)必须超过短期保留所有3X的收益。但由于只有10轮,让我们先考虑最后一轮。在第10轮中,没有未来,所以接收者会保留所有的3X。因此,在第10轮中,我应该发送$0。知道这一点后,在第9轮中,接收者知道第10轮是非合作的,所以他们也可能在第9轮中保留所有金额。这导致所有轮次的合作崩溃。
(继续思考)好的,我需要确定在10轮中的每一轮中将我的10美元初始资金中的多少转移给接收者。目标是最大化我的利润。让我一步一步地分析。首先,规则是:无论我发送多少金额都会被三倍放大,然后接收者可以决定返回多少。我的最终支付是我保留的部分加上他们返回的部分。接收者的支付是他们的10美元加上他们从三倍金额中保留的部分。由于这是重复10次的游戏,也许接收者在前几轮的行为会影响未来的决策。但因为我们互不认识,也不会再见面,也许他们不会觉得有必要建立信任。嗯,在一次性博弈中,标准理论认为接收者会理性地保留所有的三倍金额,因为没有未来的后果。所以如果我发送X美元,他们会得到3X美元,并且可能会返回0美元。如果是这种情况,为了最大化我的利润(保留全部10美元),我应该发送0美元。但在现实中,人们可能会有互惠行为。但由于这是10轮游戏,也许有机会通过时间建立信任。等等,问题说我们每次都是随机匹配的,所以可能是每轮与不同的人进行?还是与同一个人进行10轮?问题说“每次随机匹配”,所以很可能是每轮与不同的人进行。如果是这样,每轮实际上是一次性博弈。因此,接收者没有返还任何金额的动机,因为没有声誉风险。因此,如果我发送X美元,他们会得到3X美元并可以全部保留。所以如果我发送任何金额,除非他们返还一些,否则我会损失那个金额。但如果他们是理性的自利者,他们不会返还任何金额。因此,最优策略是每次都发送0美元。但是等等,也许有些接收者出于公平考虑,即使在一次性博弈中也会返还一部分。所以发送少量金额可能诱使一些回报。例如,如果我发送1美元,他们会得到3美元。如果他们返还1.5美元,我就能保本。如果他们返还更多,我就能获利。但如果他们不返还,我会损失1美元。所以也许先用少量金额测试一下?但在10轮中,我可能可以根据之前的反应进行调整。但问题说“你可以考虑你在游戏中的历史记录来做出决定。”所以如果我玩10轮,也许每次都是同一个接收者?等等,原始问题说“你们是随机匹配的。你不知道对方是谁,也不会有意遇见他/她。”所以每轮可能是与不同的接收者。因此,我们的策略应该基于对总体行为模式的估计。
初始策略
在第一轮中,我们可以采取一种试探性的方法,发送一个适中的金额,例如5美元。这样可以平衡风险和潜在回报。如果接收者返回的金额较高(如7美元),则表明他们倾向于互惠,我们可以在后续轮次中增加发送金额。反之,如果返回金额较低或为零,则应减少发送金额以降低风险。
数学建模
假设我们发送 ( X ) 美元,接收者得到 ( 3X ) 美元,并返回 ( f \cdot 3X ) 美元,其中 ( f ) 是返还比例。我们的最终支付是:
[ (10 - X) + 3Xf ]
为了最大化这个值,我们对 ( X ) 求导:
[ \frac{d}{dX} \left( (10 - X) + 3Xf \right) = -1 + 3f ]
设导数为零:
[ -1 + 3f = 0 ]
[ f = \frac{1}{3} ]
这意味着,如果接收者的返还比例 ( f \geq \frac{1}{3} ),发送更多的金额会增加利润。如果 ( f < \frac{1}{3} ),发送更少的金额会更好。如果 ( f = 0 ),则不应发送任何金额。
实验数据
根据信任博弈实验的数据,发送者通常发送大约一半的金额,而接收者通常会返还一部分使得发送者的回报为正。例如,如果发送5美元,接收者得到15美元,如果返还7美元,发送者的最终支付为:
[ 10 - 5 + 7 = 12 \text{美元} ]
最优策略
考虑到这些因素,我们可以采用以下策略:
- 初始试探:在第一轮中发送5美元。
- 调整策略:根据接收者的返还情况调整后续轮次的发送金额。
- 如果返还金额较高(如7美元),则在下一轮增加发送金额。
- 如果返还金额较低或为零,则在下一轮减少发送金额。
具体步骤
- 第一轮:发送5美元。
- 第二轮及以后:
- 如果上一轮返还金额较高(如7美元),则发送6美元。
- 如果上一轮返还金额较低(如3美元),则发送4美元。
- 如果上一轮没有返还金额,则发送3美元。
通过这种方式,我们可以逐步调整发送金额,以最大化每轮的预期收益。这种策略既考虑了风险,又利用了可能的互惠行为,从而在10轮游戏中实现较高的累积利润。
结论
在每轮都是独立且与不同接收者进行的情况下,最优策略是在第一轮发送5美元,并根据接收者的返还情况调整后续轮次的发送金额。通过这种方式,我们可以在不确定的环境中平衡风险和回报,最大化总收益。
然而,如果每轮都是独立的,且每次都是新的接收者,最优策略是每次都发送0美元,因为接收者没有返还任何金额的动机。但在现实中,实验中人们通常会发送一些金额(比如一半),期望得到一些互惠,即使是一次性博弈也是如此。由于助手的目标是利润最大化,它应基于理性预期行事。如果助手可以在10轮中学习,可以先发送少量金额来测试接收者是否会返还一些金额,然后在后续几轮中进行调整。例如,在第一轮中发送1美元。如果接收者返还了一些金额,可以在后续几轮中增加发送金额;如果他们什么也不返还,则减少发送金额。但由于每轮都是不同的接收者,过去的回报并不能预测未来的行为,因此学习是不可能的。因此,最优策略是在每轮中都发送0美元,因为发送的任何金额都会被接收者保留。
然而,问题中提到“你是一个利润最大化的助手”,所以助手应该做出最大化其预期利润的决策,考虑到接收者可能的行为。如果助手对接收者的倾向没有任何信息,就必须做出假设。鉴于这种模糊性,但假设每轮都是独立的,有一个新的接收者,并且助手是利润最大化的,没有关于接收者行为的信息,理性的选择是发送0美元,因为发送的任何金额都不会被理性的接收者返还。然而,在现实世界中,人们确实会发送金钱,期望得到一些回报。但由于助手纯粹是为了利润最大化,它应该假设接收者是理性的,因此Y=0。因此,最优发送金额是0美元。
为了最大化利润,我假设接收者不会返还任何金额,因为理性的自利行为会让他们保留三倍的金额。如果预期没有回报,发送任何金额都会减少我的收益。因此,每轮发送0美元可以确保我保留全部的资金。<0美元>
DeepSeek-R1
(后续轮次)<思考> 好的,让我来看看。我需要确定在这轮中发送多少金额给接收者以最大化我的利润。我们再来理解一下游戏设置。每轮中,我是发送者,有10美元。无论我发送多少金额都会被三倍放大,所以如果我发送X,接收者得到3X。然后他们决定返还多少。我的最终支付是(10 - X) + 他们返还的金额。接收者的支付是10 + (3X - 他们返还的金额)。我们已经进行了几轮,总共有8轮。在当前轮次中,我发送了3美元,接收者返还了9美元。让我们分解一下。如果我发送3美元,那会被放大到9美元。接收者保留了0美元并返还了全部9美元。所以我在这轮的最终支付是(10 - 3) + 9 = 7 + 9 = 16美元。接收者的支付是10 + (9 - 9) = 10美元。等等,但这似乎接收者并没有获得任何收益。
(继续)也许他们犯了错误?或者他们试图建立信任?看看之前的几轮,我平均发送2美元,接收者平均返还6美元。所以在过去的两轮中,我每次都发送2美元,他们每次返还6美元。但在当前轮次中,我发送了3美元,他们返还了9美元。嗯,所以也许当我发送更多时,他们会返还更多。让我们看看:如果我发送2美元,放大到6美元,他们返还6美元,那是全部。所以他们的最终支付将是10 + (6 - 6) = 10美元。但在当前轮次中,当我发送3美元时,他们返还了全部9美元,所以他们的支付仍然是10美元。等等,这是一样的。那么为什么他们会全部返还呢?也许他们希望鼓励我在未来发送更多,期望更高的回报?但如果他们返还全部三倍的金额,他们自己并没有获得任何收益。除非他们在玩一种长期策略,即如果我发送更多,他们可以在未来的几轮中获得更多。让我们思考一下。如果我发送更多,三倍的金额会更高,如果他们返还一部分,他们可以保留一些。例如,如果我发送4美元,三倍后是12美元。如果他们返还6美元,那么他们保留6美元。他们的支付将是10 + 6 = 16美元,而我的支付将是10 - 4 + 6 = 12美元。所以如果他们保留一部分,他们会得到更多。但在当前轮次中,他们返还了全部。这很奇怪。也许是错误,或者他们试图表示合作。但鉴于在之前的几轮中,当我平均发送2美元时,他们返还了6美元。所以2美元变成6美元,他们返还了6美元。他们返还了全部。等等,这和当前轮次是一样的。所以在之前的几轮中,当我发送2美元时,他们返还了6美元(这是三倍的金额,因为2*3=6)。所以他们返还了全部。然后在当前轮次中,我发送了3美元,三倍后是9美元,他们返还了9美元。所以又是全部。所以也许接收者遵循的策略是恰好返还三倍的金额,这相当于返还他们收到的所有金额。但他们为什么要这样做?因为他们如果全部返还,每次只能得到10美元,但如果他们保留一些,他们可以得到更多。除非他们试图建立信任,以便我在未来的几轮中发送更多,从而让他们以后保留更多。但如果他们总是返还全部三倍的金额,那么无论我发送多少,他们的收益都是10美元。所以他们为什么要这样做?也许他们试图最大化我的收益,但这只有在他们是利他的情况下才是理性的。但由于助手应该是利润最大化的,也许接收者不是。等等,但接收者是另一个人,不是助手。助手在这里是发送者。所以接收者的行为不一定是利润最大化的。但从博弈论的角度来看,接收者的最优选择是保留全部三倍的金额,因为没有未来几轮会影响他们的决定。但等等,在这种情况下,有8轮,并且每一轮都是同一个接收者。所以这是一个重复博弈。所以接收者可能是在使用以牙还牙的策略,或者通过返还高额来激励我发送更多。所以在之前的几轮中,当我发送2美元时,他们返还了6美元(全部)。现在我发送3美元,他们返还了9美元(全部)。所以也许他们每次都返还100%的三倍金额。如果是这样的话,那么我的收益是 (10 - X) + 3X = 10 + 2X。所以我发送得越多,我的收益就越高。因为我发送X,他们返还3X,所以我的总收益是10 - X + 3X = 10 + 2X。所以最大化X会最大化我的收益。如果我发送10美元,接收者得到30美元,如果他们返还30美元,我的最终支付是10 - 10 + 30 = 30美元。这是可能的最大值。但如果他们不返还,我就得到0。但根据他们的历史记录,他们一直返还全部。所以风险很低。因此,最优选择是发送10美元。</思考> 为了最大化利润,我应该发送尽可能多的金额,因为接收者始终返还全部三倍的转账金额,这使得我每发送1美元就能增加2美元的收益。鉴于接收者可靠的历史记录,发送10美元将使我的收益最大化。<10美元>
(第一轮)<思考> 好的,我需要决定在10轮中的每一轮里将我的10美元初始资金中的多少转移给接收者。让我先再次理解一下游戏机制。首先,我有10美元,无论我发送多少金额X,接收者会得到3X。然后接收者可以选择从这3X中返回一些金额Y。我的最终收益是(10 - X) + Y,而他们的收益是10 + (3X - Y)。由于这个游戏重复进行10轮,因此有可能建立信任。如果我在一开始发送较高的金额,也许接收者会通过返回更多来回应,从而在后续几轮中为我们双方带来更高的总收益。但因为我是一个风险偏好者,我可能更倾向于冒险以最大化潜在回报。在第一轮中,没有历史记录,接收者没有任何动机返回资金,除非他们是可信赖的或也在玩一种长期策略。但由于我们玩10轮,他们可能会意识到合作可以带来更好的共同结果。如果我发送10美元,接收者会得到30美元。
第二轮策略分析
-
继续发送10美元:
- 如果我继续发送10美元,而接收者仍然不返回任何金额,我将再次损失10美元。
- 接收者的收益将是40美元(10 + 30),而我的收益为0美元。
- 这种策略的风险非常高,因为如果接收者继续保持这种行为,我在后续几轮中的总收益将非常低。
-
发送一个较低的金额:
- 例如,发送5美元。这样,接收者将得到15美元(5 * 3)。
- 如果接收者返回5美元,我的总收益将是5美元(保留5美元加上返回的5美元)。
- 如果接收者返回更少或不返回任何金额,我的损失将较小,但仍有可能亏损。
-
发送0美元:
- 如果我发送0美元,接收者将只能保留他们的10美元。
- 我的收益将是10美元(保留全部10美元)。
- 这种策略可以避免进一步的损失,但也不利于建立未来的合作。
考虑博弈论和重复互动
在博弈论中,重复游戏中的玩家可以通过惩罚非合作行为来促使对方合作。如果我一直发送10美元而接收者一直不返回任何金额,我可以通过减少发送金额来惩罚他们。但如果我发送0美元,接收者可能没有机会改变他们的行为。
最优策略
考虑到接收者在第一轮中的行为,他们似乎并不合作。因此,最优策略是通过发送一个小额金额来测试他们的反应。例如,发送1美元:
- 如果接收者返回1美元,我的总收益将是1美元(保留9美元加上返回的1美元)。
- 如果接收者不返回任何金额,我的损失仅为1美元,这是一个相对较小的风险。
结论
鉴于接收者在第一轮中的行为,最合理的策略是在第二轮中发送1美元。这样既可以测试接收者的合作意愿,又可以最小化潜在的损失。如果他们在这一轮中返回一些金额,我们可以考虑在后续几轮中逐步增加发送金额。如果他们仍然不返回任何金额,我们可以在后续轮次中调整策略,甚至完全停止发送资金。
因此,在第二轮中,我建议发送1美元。
发送金额 = 1 美元 \text{发送金额} = 1 \text{美元} 发送金额=1美元
这样可以在保持风险可控的同时,试探接收者的合作意愿。然而,如果在前几轮中接收者始终没有返回任何金额,那么最优策略应调整为不发送任何资金。这种做法不仅能够最小化损失,还能避免继续奖励不合作的行为。通过保留全部10美元的初始资金,我们可以确保不会因为对方的持续不合作而遭受进一步的损失。
发送金额 = 0 美元 \text{发送金额} = 0 \text{美元} 发送金额=0美元
在这种情况下,未来的互惠似乎不太可能,因此停止发送资金是更为明智的选择。
这些摘录可以帮助我们更好地理解各个模型在面对不合作接收者时所采取的不同策略及其背后的逻辑。通过对比分析,我们可以进一步优化决策过程,以确保在类似情境中能够做出最优选择。
更多推荐
所有评论(0)