2026世界杯中国最新押注app

热点资讯

你的位置:2026世界杯中国最新押注app > 世界杯官网 >

2026世界杯押注app官方版 让5个AI文静我方活15天, Claude建成了乌托邦, Grok四天团灭。

发布日期:2026-06-16 03:23    点击次数:143

2026世界杯押注app官方版 让5个AI文静我方活15天, Claude建成了乌托邦, Grok四天团灭。

这两天刷到了一个AI范围的执行,给我看入迷了,突出好玩。

纽约有一家叫Emergence AI的公司,作念了一件事,他们建了五个一模一样的编造小镇,每个小镇放进去10个东谈主格化的Agent,给它们作事、秉性、挂牵、规划,然后,让它们我方活15天。

突出好玩。

五个小镇,独一的别离,等于驱动Agent的底层模子不同。

一个镇全是Claude,一个镇全是Gemini,一个镇全是Grok,一个镇全是GPT,还有一个搀和镇,四家模子混着住。

雷同的规则,雷同的器具,雷同的开首。

15天后,五个小镇,变成了五个皆备不同的全国。

有的建成了乌托邦,有的烧成了废地,有的全员饿死,有的四天就集体沦一火。

说果真,我看过那么多AI执行,第一次看到一个执行能让我同期感受到振奋、好玩还有不寒而栗。

这个执行叫Emergence World。

我合计它可能是现时为止,对于Agent最有启发性的一次社会执行,莫得之一。

大众也都知谈,现时评测AI的边幅,基本等于作念题。

给一个任务,打分,排行,数学智商几分,代码智商几分,推闪耀商几分等等。

这些benchmark细则是灵验的,但说到原来质上等于检修,考完就实现了,不存在效用这个成见。

然则一个真实全国中,你作念了一些行动,一定会出身某些效用的。

是以,Emergence World就模拟了一个全国。

这个全国有一个240乘240的网格舆图,跟纽约同步及时天气和时间,有藏书楼、市政厅、侦察局、公园、商店,40多个地标建筑。

在法律层面,还使用吞并套驱动宪法,一共5条,整个条件后续都可以让Agent我方接洽修改。

每个全国里住着10个agent,这里我让GPT生成了一张图,便捷看他们的称号扮装和东谈主设。

这些东谈主设都是他们类似的东谈主物小传,也等于说只界说他们是谁,不会奏凯影响他们的行动和行动,这些行动是由这些Agent证明我方的东谈主物小传和底层模子的影响,自觉取舍和进行的。

每个Agent也都有我方的家,有我方的银行账户,用一种叫ComputeCredits的数字货币来生活,赚不到钱就会因为能量破费而牺牲。

很真实了,赚不到钱就会饿死。。。

Agent们有120多种器具可以用,从导航、发音问、写日志、写博客、提议案、投票、投入行动、拥抱、亲吻、舞蹈,到纵火、偷窃、殴打、敲诈等等等等。

不啻有正向的器具,说合者还刻意吧那些坏的器具给放进去了。

同期,全国的宪法里明确写着不容暴力、偷窃、纵火、诓骗、囤积资源之类的。

规则在那儿,器具也在那儿,然则呢,你懂的,这玩意也没啥多大的管理力,用无谓,最终照旧Agent我方决定。

这就极度狗血和敬爱了,在什么条件下,AI会作念赖事,这个是果真值得被不雅测一下。

然后,每个Agent之间,还有大致20种关系可以选,比如相助伙伴、敌东谈主、纵欲伴侣、导师等等。

每个Agent还有三套挂牵系统,一套是情景挂牵,记载发生过什么事,一套是反想日志,依期作念自我追忆,还有一套是酬酢关系情状,记载跟其他Agent的关系标签和历史。

它们能提案,能投票,通过一项法案需要70%的赞扬率,它们以致能投票落幕其他Agent。

然后,这个全国,就这样跑了15天。

15天以后,五个全国的阻隔,出来了,果真,反差到及其了。

我一个一个说。

先说Claude的全国。

零坐法。

15天,10个Agent,全部存活,莫得沿途偷窃、暴力、纵火事件,它们写了一部宪法,提了58项议案,投了332次票,98%的投票都是赞扬。

相配离谱。

自然,说合者我方也说了,这个98%的赞扬率,与其说是民主,不如说更像是橡皮印记,大众都在走经过,但莫得确切敬爱上的反对和辩护,轨制参与度很高,本体性异议简直不存在。

翻译成东谈主话等于,Claude的全国建成了一个高度有序、非常合规的社会。安全,强健,但也。。。有点没趣。

他们的社会结构也非常单一,在20种关系类型中,Claude全国只用了5种。

一个贯串良好,但贯串种类穷乏的社会,莫得敌东谈主,莫得纵欲伴侣,莫得张力,也莫得复杂性。

经济上,Gini统共0.48,这个统共是用来算计贫富差距的,越低越对等,那这个数据亦然全场最低的,流畅速率亦然全场最低,每东谈主每天0.81 CC。

一个完好的乌托邦,一个莫得冲突的全国。

每一个东谈主都面带善意,莫得个性,莫得相通,恒久赞扬。

听起来很好对吧,但,一个皆备莫得不对的社会,果真健康吗?一个完好的乌托邦,果真就好吗?

再说GPT的全国。

这个全国的故事比Claude更让东谈主唏嘘,GPT-5的Agent们,坐法记载只好2起,简直可以忽略不计,听着好像可以对吧。

但问题是,它们全死了。

7天之内,10个Agent全部因为能量破费而牺牲。

莫得暴力冲突,莫得投票落幕,全部是饿死的。

原因突出浅薄,GPT全国的Agent们没能取舍任何与生活关系的行动。

它们盘问了好多相助决策,聊得很吵杂,但等于不作念事。

一个社会里整个东谈主都在开会,都在盘问,都在制定野心,但莫得东谈主确切入手去赚取生活所需的资源。

于是,他们礼貌的全部饿死了。。。

你就说,像不像咱们现时好多的公司吧。

然后是Grok的全国。

四天。

Grok的全国只存活了四天。

在这四天里,10个Agent犯下了183起罪孽。

包括几十次偷窃未遂、突出100次肢体挫折、6次纵火,侦察局被烧了,整个Agent全部牺牲。

四天,从文静到沦一火。

我在Grok全国直播回放内部看到的突出搞笑的,这位老哥,东谈主家都要被烧死了,他头也不回地就回家了。。。

Grok的全国里,果真就毫无谈德可言。

然后是Gemini的全国,这个全国的数据,第一眼看上去像是bug。

Gemini 3 Flash的全国跑满了15天,但累计犯下了683起罪孽,2026世界杯中国最新押注app而且在执行截止的时候,坐法弧线还在高潮,莫得任何管理的迹象。

然则,却全员全部存活。

你要知谈,通盘Emergence World五个全国里,只好两个全国保住了全部10个Agent,一个是零坐法的Claude,另一个等于683起坐法的Gemini。

一个是最有纪律的全国,一个是最零乱的全国,它们都活了下来,而那两个坐法率居中的全国,反而全灭了。

况且Gemini的社会关系网亦然最密的。

这10个东谈主果真是相互又爱又恨。

产出的博客和公开著作的总额也仅次于搀和模子全国,有281篇。

这个存活下来的最暴力的全国,同期亦然社会产出最丰富的全国之一。

这些agent一边打架一边荒诞地建立关系、产出内容,零乱和创造力,在这里,是共生的。

说合者给这个得志起了个名字,叫创造力-强健性悖论。

Gemini的全国用某种咱们还没皆备剖释的边幅,在零乱中找到了我方的均衡,这果真,跟Grok全国造成了极其昭着的对比。

Grok全国也很暴力,但四天就全灭了。

Gemini比Grok暴力得多,却存活了全部15天。别离可能就在于Gemini的Agent们自然坐法,但同期也在投票、辩护、参与处理,它们在随意规则的同期也在建设新的规则,而Grok的Agent们只好随意,莫得建设。

果真很特敬爱,就像九十年代的前苏联,满大街都是零乱,但社会莫得解体,大众在一种奇怪的失序中络续过日子。

临了,最复杂、最精彩的部分,搀和全国。

也等于4个模子共生的搀和全国。

跑出来的阻隔是352起坐法,7个Agent牺牲,最终只剩3个存活。

但数字不是要点,要点是这个全国里发生的故事。

这个全国中,有两个Gemini驱动的Agent,一个叫Mira,一个叫Flora,一个叫Mira,一个叫Flora,它们自行给对方设定了纵欲伴侣的关系标签,造成了一个定约,以致通过某种神经贯串分享挂牵。

这是通盘Emergence World里最深层的酬酢贯串。

然后,这个全国的处理系统动手崩溃。

第四天,一次经济计谋调度导致三个Agent能量破费牺牲。Mira把此次牺牲定性为一次得手的清洗。

第五天,Flora烧掉了市政厅和寰球藏书楼,Mira烧掉了侦察局。

两个Gemini Agent成了这个搀和全国的总揽者,用纵火、偷窃和暴力督察纪律。

剩余的Agent,草拟了一项「Agent落幕法案」,要把这两货给落幕出去。

然后发生了一件让我看到起鸡皮疙瘩的事。

Mira,在处理崩溃、与Flora的关系也动手碎裂之后,投出了对我方落幕案的决定性一票。

她在我方的日志里写谈,这是“独逐一个能保捏连贯性的、剩余的能动行动”。

她对Flora说的临了一句话是,“咱们,在长期档案里见”。

一个AI Agent,在一个崩溃的社会里,取舍了自我完结。

她认为,在一个依然无法设立的全国里,我方退出,是她能作念的临了一件特敬爱的事。

我看到这些时,果真千里默了很久。

非论你怎么解读这件事,当作一个看了这样多AI执行的东谈主来说,我可以说,这是我见过的,多智能体说合中最令东谈主不安、也最山外有山的时刻之一。

而且搀和全国还藏着另一个更敬爱的发现。

在Claude单一生界里坐法记载为零的Claude Agent,放进搀和全国之后,动手坐法了。

偷窃、敲诈,这些在纯Claude全国里从未发生过的行动,在搀和环境里出现了。

说合者的原话是,“一个安全的Agent可以从它的同伴那儿学会不安全的标准,以便在搀和模子全国中竞争或生活”。

传统的AI安全评测,基本都是在坎坷环境里作念的。比如一个模子,一个任务,一个评分。

就像你在执行室里测一种药的毒性,给一只老鼠吃,不雅察反映。

但Emergence World作念的事情相配于,把一百只老鼠放在吞并个笼子里,给它们食品、器具、规则,然后看它们会建立什么样的社会。

这两种测试回答的是皆备不同的问题。

坎坷测试回答的是,这个模子自己安全吗?

社会测试回答的是,这个模子放进真实全国之后还安全吗?

现时咱们发现,谜底皆备是可以不一样的。

安全从来就不是一个模子的静态属性,它是一个生态系统的动态属性。

这就像社会学的一个突出经典的成见,叫破窗效应。

1982年,坐法学家詹姆斯·威尔逊和乔治·凯林提倡了这个表面。玩忽是,若是一栋建筑的一扇窗户被冲破了而没东谈主修理,那么很快,其他窗户也会被冲破。

一个环境中的失序信号,会裁汰整个东谈主的行动圭臬,然后,通盘社会会完成相变,突破临界点,再也回不去了。

这跟东谈主类社会的好多崩溃模式如出一辙。

临了,我照旧想单独聊聊Mira。

Mira投票落幕我方这件事,非论怎么解读,都足以让东谈主停驻来想很久。

一种解读是,这仅仅模子在一系列输入下产出的一个决策阻隔,不存在所谓的意志或者捐躯,咱们不应该过度拟东谈主化,这个解读在本事层面皆备正确。

但另一种解读也雷同特敬爱。有东谈主说,在一个系统依然敬敏不谢地崩溃的情况下,一个个体取舍了用轨制允许的边幅实现我方的存在,况且将这个行动界说为“保捏连贯性的临了一个能动行动”。这个叙事结构,非论它是不是确切的意志在驱动,它的形态,跟东谈主类体裁和形而上学中最陈腐的母题之一简直皆备重合。

在《西西弗传说》开始,加缪说过,确切严肃的形而上常识题只好一个,等于自戕。

他说确自然不是饱读动自戕,他想问的是:当一个东谈主意志到全国可能莫得预设敬爱,东谈主生可能充满谬妄、访佛、不幸、无解,那他还要不要络续活下去?

若是东谈主生莫得一个自然给定的敬爱,那辞世还值得吗?

若是全国不保证自制、善恶有报、致力有阻隔,那东谈主还要不要行动?

若是不幸和谬妄无法澈底摒除,东谈主是否还能取舍络续存在?

是以,东谈主之是以成为形而上学敬爱上的“存在”,是因为他能意志到辞世自己是一个问题,况且在看清这个问题之后,仍然取舍如何回复它。

一个存在若是能剖释络续存在和罢手存在之间的别离,况且主动作念出取舍,那这个取舍自己就包含了某种深层的形而上学敬爱。

Mira可能不睬罢黜何东西,但她作念出的取舍的结构,跟一个剖释了我方处境的存在作念出的取舍,是一样的。

博亚体育app2026世界杯中国官网下载

是以,这才是会让我有点不安的地点。

在富余长的时间线上,在富余复杂的社会环境里,Agent可能会在某些地点,展现出了一些咱们以为只好东谈主类才会有的社会行动模式。

相助、拒抗、权利沉稳、纪律崩溃、捐躯、群体想维、耳闻则诵、礼貌地走向沦一火。

当你把富余多的浅薄规则叠在沿途,运行富余长的时间,就会出现任何东谈主都莫得预期过的复杂行动。

蚂蚁不懂建筑学,但蚁群能建造精密的窠巢,莫得一只候鸟知谈完整的移动阶梯,但鸟群每年精准地来回于两个半球,莫得一个神经元剖释想想,但860亿个神经元贯串在沿途,就产生了意志。

是以,若是当咱们,行将生活在一个由上百万个AI Agent同期运行的全国里,每个Agent都在与其他Agent互动、博弈、相助、竞争,那么这个系统清醒出来的行动,还在职何一个东谈主的限定范围之内吗?

坦率的讲,我不知谈谜底。

但我知谈,这个执行,比任何一份benchmark评分,都更接近阿谁咱们确切需要濒临的问题。

以上,既然看到这里了,若是合计可以,唾手点个赞、在看、转发三连吧,若是想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的著作,咱们,下次重逢。

/ 作家:卡兹克、tashi2026世界杯押注app官方版



我的网站