ZAKER 资讯-传神到离谱!1000个东说念主类克隆进西部天下,AI相似度85%细节太炸裂

让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

本地推荐 /

你的位置:ZAKER 资讯 > 本地推荐 > 传神到离谱!1000个东说念主类克隆进西部天下,AI相似度85%细节太炸裂
传神到离谱!1000个东说念主类克隆进西部天下,AI相似度85%细节太炸裂
发布日期:2024-11-22 15:34    点击次数:62

开始:新智元

裁剪:裁剪部 HYZ

【新智元导读】AI智能体,仍是无尽面对真实东说念主类?1000个东说念主被采访,每东说念主两小时,真实东说念主类的智能体就这样水汪汪地被投放进去了,搁置更是令东说念主吃惊:在模拟东说念主类举止上,智能体仍是85%面对真实东说念主类。AI,终究是预判了你的预判。

真实东说念主类被「投放」进AI天下,这是什么玄幻操作?

更可怕的是,证据真实东说念主类坐褥的智能体,果然能以85%的准确度,收复出他们的举止。

也就是说,东说念主类在真实天下是若何回答问题的,智能体在臆造天下中也一样。东说念主类险些领有了跟我方完全相似的臆造复制体!

昨年,斯坦福爆火25个智能体小镇,让西部天下走进实践。

时隔一年多,原班东说念主马团队让1000多个AI智能体放入臆造小镇,去模拟真实东说念主类的一切立场和举止。

论文地址:https://arxiv.org/pdf/2411.10109

不同以往,此次他们给与了一种新奇的磋商模样——访谈,去创建生成式智能体。

通过招募1052名参与者,涵盖了不同性别、年岁、地区等,每东说念主接管GPT-4o采访了2个小时。

然后将获得的访谈内容四肢笔墨指示,输入语言模子中,复刻出每个个体对应的AI智能体。

所有这个词智能体在抽象社会造访中的回答,与原参与者两周后自我复现谜底准确率接近85%,并在东说念主格预计、实验复制中阐述与东说念主类相配。

毫无疑问,咱们距离未必效法东说念主类的AI智能体仍是相配接近了

有网友称,这就是克隆东说念主的聪惠。

还有东说念主惊羡说念,机器未必提前预判你的预判,这一天竟然确实来了!

AI在模拟东说念主类举止方面达到85%的准确率,无疑是一个宽阔的成立。这一冲破,平直为AI处理高度复杂交互(如个性化医疗建议)铺平了说念路。

停止刻板印象,让AI响应真实东说念主类

为什么要作念一个这样的磋商呢?

团队成员之一Joon Sung Park先容到,这是为了「让故事更竣工」。

昨年的西部天下小镇,团队是但愿借生成式智能体来指出这样一个异日——

在无法平直参与或不雅察的情况下(比如卫生策略,居品发布,外部冲击等),东说念主类不错用AI来模拟生存,来更好地了解我方。

但是,磋商者却深深嗅觉,这个故事是不竣工的,并不收复真实的东说念主类天下。

为了让这些模拟变得着实,他们以为我方应该幸免将这些「AI东说念主」变量简化为东说念主口统计学的刻板印象,对其准确性的评估,也应该不单是是通过平均处理效应的成效或失败来权衡。

该若何办呢?团队在个体模子中找到了谜底。

他们创建了响应真实个体的生成式智能体,并通过权衡它们在多猛进程上未必重现个体对抽象社会造访、大五东说念主格测试、经济博弈以及随即对照磨练的反应,来考证这些模子的有用性。

令东说念主惊喜的是,智能体的阐述极为出色。

它们在抽象社会造访中,对被试反应的复现准确率达到了85%,与被试两周后复现我方谜底的准确性相配,而且在预计东说念主格特色和实验搁置上不异出色。

与仅基于东说念主口统计态状的智能体比拟,这种基于访谈的智能体在种族和刚劲形态群体之间减少了准确性偏差。

磋商者认为,这是因为后者更能响应真实个体的千般特有身分。

总之,这项磋商为模拟个体开辟了新的可能性。而模拟的基础,就是对组成咱们社会的个体进行准确建模。

这项职责也标识着:生成式AI不错代表真实东说念主类的期间,从此阐述开启!

咫尺,作家仍是将开源存储库和用于这项职责的Python包上传到Github,包括他本东说念主的智能体

创建1000+类东说念主生成式智能体

若想创建一个未必响应影响个东说念主立场、信仰、举止等千般身分的智能体,前提是需要对真实个东说念主领有深度解析。

为此,磋商团队决给与了基本的社会科学纪律——「深度访谈」纪律,将预设问题和基于受访者回答的稳当性相联接。

通过分层抽样招募的1000+参与者,是具有典型代表的样本。不同个体隐敝了不同庚岁、宗教、性别、考验水平、政事刚劲形态。

这样多东说念主的采访,固然要交给AI。

为此,磋商东说念主员开辟了一个AI口试官,对每个参与者完成了2小时语音访谈,并生成的灌音平均长度为6,491个单词。

这里采访的有联想,模仿了「American Voices Project」对社会科学家采访的一部分,从参与者的生存故事、到他们对现时社会问题的看法,涵盖相配之广。

比如,从童年、考验、到家庭和东说念主际关系,给我讲讲你任何阅历过的生存故事;你如何看待种族目标和社会顺次?

证据采访结构和技术甘休,AI口试官证据每东说念主的回答动态生成后续问题。

磋商平台和交互界面

为了创建「生成式智能体」,作家开辟了一种新颖的智能体架构,将参与者竣工访谈纪录和大模子相联接。

其中,整份纪录王人会被「注入」到模子指示中,指令模子证据访谈数据效法该参与者的举止。

在需要多圭臬决策的实验中,智能体解析过粗陋的文本态状,被赋予先前刺激过头对应反应的系念。

生成式智能体未必对任何文本刺激作出反应,包括强制选定指示、造访问卷、多阶段互动场景。

为了评估这些智能体模拟东说念主类的前程,磋商团队评估了四个部分:

抽象社会造访(General Social Survey)大五东说念主格测试问卷(Big Five Inventory)五个著名的举止经济学博弈(包括独裁者博弈、信任博弈、群众品博和囚徒窘境)五个包含戒指和实验条目的社会科学实验

他们使用前三个部分,来评估生成式智能体在预计个身形度、特色和举止方面的准确性,而复制磋商评估其预计群体层面,处理遵循和效应量的才智。

由于个体在造访和举止磋商中的回答,时时随技术阐述出不一致性,作家还将将参与者本人的立场和举止一致性四肢归一化因子:模拟某个个身形度或举止的准确性取决于这些立场和举止在技术上的一致性。

为了处分这种自我一致性水平的相反,他们要求每位参与者在两周内完成两次测试。

其中主要因变量是归一化准确率(Normalized Accuracy),其计较纪律为:智能体预计个体回答的准确性/个体本人回答的复现准确性。

归一化准确率用1.0暗意,生成式智能体预计个体回答的准确性与个体两周后复现我方回答的准确性沟通。

对于联接型搁置,作家计较的是归一化相关性。

预计个身形度和举止

抽象社会造访

评估的第一部分就是GSS,以评估受访者对平方主题的东说念主口布景、举止、立场和信仰,包括群众策略、种族关系、性别和宗教。

对于GSS,生成式智能体以0.85的平均归一化准确率预计了参与者的反应。

显著,这些基于访谈构建的智能体,性能优于基于东说念主口统计和东说念主物变装的智能体,归一化分数向上14-15%。

基于东说念主口统计的生成式智能体竣事了0.71归一化准确率,而基于变装的智能体达到了0.70。

大五东说念主格测试

评估第二个部分,使用BFI-44预计参与者的大五东说念主格特色,该测试评估五个东说念主格维度:通达性、守法性、外向性、亲和性和神经质。

每个维度由8-10个李克特量表(Likert scale)问题的抽象得分计较得出。

对于大五东说念主格测试,生成式智能体达到了0.80的归一化相关性。

与GSS的搁置访佛,基于访谈的生成式智能体的阐述优于基于东说念主口统计(归一化相关性=0.55)和基于变装(归一化相关性=0.75)的智能体。

基于访谈的智能体在预计大五东说念主格特色时,还产生了更低的平均十足舛误(MAE),过后成对Tukey测试说明基于访谈的智能体显耀优于其他两组。

经济博弈

评估第三个部分包含五个著名的经济博弈,旨在引出参与者在有真实狠恶关系的决策情境中的举止。

这些博弈包括:独裁者博弈、第一玩家和第二玩家的信任博弈、群众品博弈、囚徒窘境。

为确保参与者的真实干涉,磋商提供了财富奖励。

磋商东说念主员将每个博弈的输出值归一化到0-1的范围内,并比较生成式智能体的预计值与参与者的本体值。

由于这些是联接性测量,他们计较了相预计数和归一化相关性。

平均而言,生成式智能体达到了0.66的归一化相关性。

但是,在经济博弈中,各智能体之间的平均十足舛误(MAE)莫得显耀相反。

基础对比磋商

在探索性分析中,作家通过将基于访谈的生成式知恩个体与一个基线复合智能体进行比较,测试了访谈的有用性和遵循。

这个基线复合代理是基于参与者的GSS、大五东说念主格和经济博弈响应数据构建的。

这里,随即抽样了100名参与者,并摈弃了同类问题的问答对,建造复合智能体四肢参照。

搁置显露,复合智能体在GSS归一化准确率为0.76,在大五东说念主格归一化相关性和经济博弈归一化相关性诀别为0.64和0.31。

在消融实验中,即使删除80%访谈内容,基于访谈构建的智能体,仍旧优于复合智能体。其中,GSS归一化准确率为0.79。

另外,在通过GPT-4将访谈纪录调节为重点追念(仅保留事实内容,移除原始语言特征),搁置不异如斯。

实验复现搁置,AI与东说念主类高度一致

实验评估的第四部分,就是让生成式智能体参与5个社会科学实验,检测它们是否预计社会科学家常用实验环境中的处理效应。

这些实验来自一项大限度复现职责中收录的已发表磋商,包括磋商感知意图如何影响包袱包摄,以及公说念性如何影响情感反应。

最新磋商中,东说念主类参与者和生成式智能体王人完成了通盘五项磋商,并使用与原始磋商沟通的统计纪律计较了p值和处理效应量。

如下表所示,东说念主类成效复现了5项磋商中的4项,其中1项失败。而生成式智能体也复现了沟通的四项磋商,不异未能复现第五项。

生成式智能体估算的效应量与参与者的效应量高度相关,比拟之下参与者里面一致性相预计数为0.99,得出归一化相预计数为0.99。

在生成式智能体东说念主口统计学对等相反(DPD)实验中,与东说念主口统计信息或变装态状构建的智能体比拟,基于访谈的生成式智能体在所有这个词任务中王人显露出较低的DPD。

这标明基于访谈的生成式智能体能更有用地消弱偏见。

如何创建一个及格的AI访谈员

为了确保智能体所需的丰富进修数据具有高质料和一致性,磋商者开辟了底下这个AI访谈智能体。

之是以选定访谈而非问卷造访,就是但愿访谈能提供更全面、缜密的信息,从而让智能体在平方的话题和范畴中,竣事更高保真度的立场和举止模拟。

另外,选用AI访谈智能体而非东说念主类访谈员,也能确保所有这个词被试之间互动格长入质料的一致。

AI访谈员架构

一个及格的AI访谈员,需要知说念何时冷落问题,以及如何冷落有道理的证据问题。

在投诚访谈提纲的同期,它还要顺水推船,活泼颐养,匡助被试掀开话匣子,共享他们可能没想起来的内容。

为了赋予AI访谈员这种才智,磋商者迥殊联想了一种访谈架构,让磋商者能戒指访谈的举座内容和结构,同期允许智能体有一定的目田度,来探索采访剧本中硬编码的后续问题。

智能体会将被试的话语和访谈剧本四肢输入,以后续问题的步地生成 下一走路动,或决定使用语言模子赓续下一个问题模块。反念念模块有助于架构从正在进行的访谈中精真金不怕火地追念和臆测观念,使智能体更有用地生成后续问题

用语言模子进行下一个问题模块

访谈架构将访谈条约和受访者最近的回答四肢输入,输出一个动作:1)赓续发问提纲中的下一个问题;或2)证据对话内容冷落一个跟进问题。

访谈提纲是一系列有序的问题清单,每个问题王人标注了预设技术。在一个新问题块初始时,AI访谈员会逐字发问剧本中的问题。

当被试回答后,AI访谈员会哄骗语言模子,在问题块的技术甘休内动态决定最好下一步。

比如,当接洽被试对于童年阅历时,淌若回答中提到「我出身在新罕布什尔……我很可爱那边的当然环境」,但未具体说起可爱的地点,访谈员可能会生成并发问一个跟进问题:「在新罕布什尔,有莫得终点可爱的步说念或户外地点,或者在童年时留住深入印象的所在?」

反之,当接洽作事时,淌若回答是「我是牙医」,访谈员会判断问题仍是完全获得回答,然后进入下一个问题。

跟进问题的推理和生成,王人是通过指示语言模子完成的。但是,为了访谈员生成有用的行动,语言模子需要记取并推理先前的对话内容,才能证据共享信息冷落有道理的跟进问题。

这里就出现了一个问题:尽管当代语言模子的推理才智不休进步,但淌若指示内容过长,它们仍然难以全面接洽所有这个词信息。

淌若毫无选定地包含访谈于今的所有这个词内容,可能会慢慢裁减访谈员生成证据问题的阐述。

为了处分这个问题,磋商者让访谈架构包含一个反念念模块,该模块未必动态地抽象到咫尺为止的对话内容,并输出一份追念性札记,态状访谈员不错对参与者作出的臆测。

举例,对于前边提到的参与者,该模块可能生成如下反念念内容:

然后,在指示语言模子生成访谈员的行动时,磋商者也莫得使用竣工的访谈纪录,而是用了访谈员蓄积的精真金不怕火但态状性强的反念念札记,以及最近5,000字符的访谈纪录。

让AI访谈员「启齿话语」

为了让被试嗅觉我方在和真实的东说念主类交谈,况且和口试官建造融洽的关系,团队使用了低延伸语音。

被试发言后,AI口试官每每会在4秒内作念出恢复。

也就是说,短短4秒内,AI就完成推理、生成、复返语音响应的全经过!因此,东说念主类被试也会嗅觉无比丝滑。

参与者的语音响应,是使用OpenAI的Whisper模子转录的,这个模子能将语音音频调节为文本。

为了让被试对我方的回答进行反念念,磋商者会对GPT-4o使用以下指示:

而为了让GPT-4o动态生成新问题,磋商者会对它使用以下指示:

果然,这样调试出来的AI访谈员相配具有同理心,能联接和东说念主类被试进行顺畅的对话。

听到被试的童年阅历后,ta会说「听说你的童年并不好意思好,我感到很缺憾,能告诉我你在高中的更多阅历吗?」

听完被试的高中阅历后,ta会贴心肠进行追念,然后赓续发问:「谢谢你与我共享这些。听起来高中对你来说是一个终点有挑战性、但成长好多的时期。高中毕业后,你选定了若何的说念路?是去上了大学如故平直进入职场了呢?」

让智能体效法东说念主类举止

那么,智能体为什么对他们的「东说念主类原型」效法得这样像呢?

生成式AI之是以能模拟东说念主类举止,是因为语言模子能提供复古,然后通过一组系念来界说其举止。

这些系念以文本步地存储在数据库(或「系念流」)中,在需要时被检索出来,通过语言模子生成智能体的举止。

同期,系统配备一个反念念模块,将这些系念抽象为反念念内容,从智能体系念中的部分或通盘文本中选定内容,以指示语言模子推导出有用的观念,从而增强智能体举止的着实度。

传统的智能体,每每依赖于手动设定的特定场景下的举止,而生成性智能体,则哄骗语言模子生成访佛东说念主类的响应,后者能响应其系念中态状的东说念主格特色,并适用于千般情境,因而这种变装演出会额据说神。

内行反念念,弥补单一念念维链颓势

同期,磋商者引进了一种「内行反念念」,来从访谈纪录中明确推导出对于参与者的高端倪、更抽象的观念

这是因为,只是将参与者的访谈纪录平直指示语言模子,以单一的念念维链预计其反应,可能导致模子忽略受访者未明确抒发的潜在信息。

在该模块中,磋商者指示模子对参与者的数据生成反念念,但并非仅要求模子从访谈中推导观念,而是要求它给与范畴内行的身份。

具体来说,他们要求模子生成四组反念念,每次以社会科学四个分支范畴的不同内行身份进行:感情学家、举止经济学家、政事学家和东说念主口统计学家。

每个智能体的系念包括采访纪录和内行对该纪录的反念念的输出。这些念念考是使用语言模子生成的粗陋抽象,用于臆测可能未明确诠释的参与者的观念。内行社会科学家(举例感情学家、举止经济学家)的变装,则会训诫这些反念念

举例,对于某一访谈纪录,不同内行身份生成了不同的观念:

感情学家会认为,被试者很喜爱我方的寂寥性,可爱出差,对母亲的过度治理感到活气,对个东说念主目田阐述出了激烈渴慕。在举止经济学家看来,他未必将财务指标与失业需求很好地联接起来,追求均衡的生存。政事科学家看来,他自认是共和党东说念主,并鼎力复古该党派的理念,但同期也兼具两党的立场。东说念主口统计学家的谜底则是,他是又名库存内行,月薪3000到5000好意思元,家庭月收入7000好意思元,职责具有一定的自若性和活泼性。

对于每位被试,磋商者王人会把ta的访谈纪录指示给GPT-4,并要求它为每位内行生成最多20条不雅察或反念念,从而生成了四组反念念。

这些指示证据每位内行的变装进行了定制。比如针对东说念主口统计学内行的指示示举例下:

想象一下,你是一位东说念主口统计学内行(领有博士学位),在不雅察此次采访时作念了札记。写下对受访者的东说念主口统计特征和社会地位的不雅察/反念念。(你的不雅察应该多于 5个且少于20个,接洽上述访谈内容的深度,选定有道理的数字。)

这些反念念生成后,就会被保存在智能体的系念中。

需要预计被试的回答时,磋商者会让语言模子对问题进行分类,判断哪个内行最相宜回答该问题,然后检索出该内行生成的所有这个词反念念。

磋商者会将反念念附加到参与者的访谈纪录中,并用其四肢指示输入GPT-4,以生成预计回答。