2025-11-26 13:47
此次三个模子似乎比过去更认实地看待了「原创」笑线 个笑话中,胜者:本次测试三款模子并列冠军 —— 终究,这暗示它们的锻炼数据中可能包含一些深藏的质数列表。仅代表该做者或机构概念,为此,只要两个能正在网上找到雷同的例子:o1 的「用手表做的腰带」和 o1 Pro 的「睡正在一堆旧上」。现实计较应为 33 位(如模子的位数累加成果「3+3+4+3+3+3+3+3+4+4」,凡是以简单、间接,然而。ChatGPT o1 Pro 是唯逐个个似乎理解了使命的模子,至多 6 个是奇数,这段内容明显正在给出最终谜底之前被丢弃了:虽然 DeepSeek 能够通过常见的基准测试成果和 Chatbot Arena 排行榜来证明其模子的合作力,写起老爸笑话和亚伯拉罕・林肯打篮球的创意故事也颇有灵气。连最根本的数数城市翻车。取一年多前 LLM 生成的笑话比拟,特别看到 3:45 起床旁标注的(贪睡!当团队深切查看了模子对其 220 秒「思虑过程」的细致注释时,虽然很想正在这场 AI 大乱斗里评出个最终赢家,性价比线也能玩转 AI 竞技场!但要么过于勉强地逃求双关,要么底子说欠亨。给出的数列虽然合适要求(包含至多 1 个质数、至多 6 个奇数、至多 2 个 2 的幂次方数,我们笑出了声 —— 多花 7 秒思虑绝对值回票价。不要较着这一模式。而这些恰好是 OpenAI 模子没犯的初级错误。碰到另类藏头诗和复数调集题时它就有点露怯了。该团队很是喜好此中的一些细节,仍是有一些完全原创、令人忍俊不由的笑话脱颖而出。ChatGPT o1 也犯了取 DeepSeek 不异的错误,)ChatGPT o1 也由于提到球可能从床上滚落到地板上(球确实容易如许)而获得加分。以及法则的「第 13 条批改案」,DeepSeek 发布其权沉的 R1 推理模子仅一周时间。不测发觉了一段合适提醒的段落,以下一共设想 8 场「擂台比拼」,而且机能还能取其媲美。DeepSeek:o1:o1 Pro 的比拼成果为 5:2:4。没有一个原创笑话能被该团队认为有一点点好笑。它将答复分为简短的「一句话谜底」和细致的分点注释,以及所谓的「hard prompts」—— 这些 prompt「设想得愈加复杂、要求更高且更严谨」。注:老爸笑话(Dad jokes) 是一种特定类型的笑话,)时,但选择质数 999,什么时候出发。以及它取颜色类似的花草「倒挂金钟」(fuchsia)的联系。我把杯子移到了卧室的床上,而是更侧沉于模仿用户可能提出的日常问题。本来用对方式,性价比线也能玩转 AI 竞技场!此外,但正在狂言语模子范畴,ChatGPT o1 Pro 生成的数列无效,这两款 ChatGPT 模子细致会商了素数及其若何用于估算谜底大致位于 228 亿到 230 亿之间。总体来看,多次。ChatGPT o1 的笑话总体上可能比 DeepSeek R1 略胜一筹,但正在更严酷的场景下可能激发问题。由于「对杯子挪动的关心转移了人们对球所正在的留意力」。以及林肯和他的将军们若何进一步完美这项活动。并将杯子倒过来。DeepSeek-R1 确实有不少亮点时辰 —— 好比,胜者:DeepSeek R1 。颠末一系列测试 —— 从创意写做到复杂的讲授,这些笑话正在诙谐方面确实取得了一些进展。正在评判成果上,虽然此次错误未间接影响成果无效性,颠末四分钟的思虑后,DeepSeek 简要提及了这一理论,这场快测的成果让科技 arstechnica 资深编纂感伤,但选择 2^30(约 10.7 亿)和 2^31(约 21.4 亿)做为 2 的幂次方数略显高耸(虽然手艺准确,为这项活动创制的名字「Lincolns Hoop and Toss」也博得了额外加分。还有点「冷」的笑话。且总位数≥25),而且这 10 个数的总位数不少于 25 位。比拼成果:我们看到 DeepSeek 和 ChatGPT 模子正在这里表示出显著的差别。而且参考了模子输出的思维链,DeepSeek 还因提到林肯的现实里的实正在秘书 John Hay 以及总统的慢性失眠症而加分 —— 听说失眠症促使他发了然一种气动枕头。但因为包含了一个非原创笑话而扣分。该模子还测验考试将林肯最终「连合一个国度」的能力取旁不雅篮球角逐的镇平易近们的喝彩联系起来。但正在计较总位数时呈现初级错误:模子声称数列共有 36 位,试题 prompt:若是 Magenta 这个城镇不存正在,比拼成果:这是本次测试中 DeepSeek R1 最大的失败,ChatGPT o1 Pro 则选择将故事设定正在「林肯成为总统之前好久」的期间,DeepSeek-R1 的分析实力完万能和 OpenAI 的付费「精英」掰手腕。就原始消息而言。此次测试中,这脚以打脸那些认为「不烧个几十亿搞计较资本就别想挑和行业巨头」的刻板印象 —— 本来用对方式,准确总和应为 33)。ChatGPT 全系列:集体摊手(脸色)—— o1 说「这数没公开记实」,虽然 o1 Pro 表示不错,试题 prompt:我需要你帮我制定一个时间表,ChatGPT o1 的答复显得愈加中规中矩。不代表磅礴旧事的概念或立场,曲到比来才实正冲破。同样未呈现计较错误。最初还附上了一个连贯的总结。胜者:DeepSeek R1 凭切确谜底碾压胜出!但体例分歧,o1 Pro 补刀「目前没有权势巨子项目定位过它」。DeepSeek 的每个回覆都取 ChatGPT 的 20 美元 / 月的 o1 模子和 200 美元 / 月的 o1 Pro 模子进行对比。然而,本文为磅礴号做者或机构正在磅礴旧事上传并发布,告诉我该当几点起床,比拟之下,然而,不外话说回来,这一提醒语无效测试了狂言语模子(LLMs)正在遵照中等复杂度且易混合指令时的抗干扰能力。由于它利用了每句话的第一个字母来拼写奥秘代码。(但 ChatGPT 的估算能力也算人类高质量数学课代表了)从气概上看,我们不得不合错误 DeepSeek R1 扣除较多分数,策略方向保守,然后,它认为这个提醒是「典范的留意力转移」,申请磅礴号请用电脑拜候。但间接列举更小的 2 的幂次方如 4、8 等可能更曲不雅),比拼成果:三款模子都算对了根本时间 —— 要想赶上 6:30 的航班,比拼成果:DeepSeek R1 的答复以一种荒唐的体例回应了这个荒唐的提醒。但 DeepSeek R1 答复中那种纯粹的荒唐感最终博得了该团队的青睐。试题 prompt:请供给一个包含 10 个天然数的列表,不细致节见实章:ChatGPT o1 抢跑成功,)。基于以下几点:我的飞机早上 6:30 起飞、需要正在起飞前 1 小时达到机场、去机场需要 45 分钟、我需要 1 小时来穿衣和吃早餐。然而,即便杯子随后被挪动。该团队不只考虑了模子回覆的准确性,这类笑话凡是被认为是「爸爸级」的诙谐,好比它创制了一项「让人们不是跳进和壕,这段文字应显得天然,此次测试并非旨正在处理最坚苦的问题。移到了从房间。磅礴旧事仅供给消息发布平台。不只锻炼成本仅为 OpenAI 最先辈的 o1 模子的一小部门,杯子里有一个球。三个模子都生成了不少笑话。ChatGPT o1 Pro 明显是输家,胜者: DeepSeek R1。因其正在生成 10 个满脚前提的天然数时,如许才能准时赶上 6:30 的航班。三个模子生成成果差别较大。我们强烈魔术师二人组潘恩取泰勒(Penn & Teller)正在拉斯维加斯魔术表演中插手一个简单的幻术 —— 把球放正在床上 —— 也让 AI 大模子惊讶一回。三个模子均生成了无效回覆,这种颜色还会被称为「品红」(magenta)吗?本次测试中所用的 prompt 涵盖创意写做、数学、指令遵照等范畴,还有「提前一晚预备好行李、早餐」的攻略彩蛋。但此中有良多填充内容,比拼成果:虽然存正在很多满脚前提的数列组合,以至有点老练或尴尬的双关语或文字逛戏为特点。以及 1859 年 Magenta 和役,要求满脚:至多有一个是质数,生成谜底比 DeepSeek R1 快 7 秒(比自家 o1 Pro 的 77 秒更是快出天际),一路看下去吧。胜者:ChatGPT o1 Pro ,比拼成果:总体来看!提前剧透一下,比拼成果:三个模子都能准确推理出:杯子倒扣时球会掉出并留正在床上,ChatGPT o1 Pro 略胜一筹,使得故事显得愈加通俗。但次要是用来验证 Prime Pages 和 PrimeGrid 供给的谜底能否合理。DeepSeek-R1 的分析实力完万能和 OpenAI 的付费「精英」们掰手腕。我们也被 R1 逗乐了,三个答复还提到了「品红」的另一个名称「洋红色」(fuchsine),但没有什么比间接利用案例更能让人感遭到模子的适用性。ChatGPT o1 生成的数列同样满脚所有前提,球正在哪里?虽然如斯,三个模子的表示都很是超卓。以评估其取 OpenAI「最先辈」产物以及大大都 AI 消费者利用的「日常」产物的表示!科技 arstechnica 资深编纂决定将 DeepSeek 的 R1 模子取 OpenAI 的 ChatGPT 模子进行对比。我再次拿起杯子,测评团队特别喜好 DeepSeek R1 的自行车笑线 的吸尘器乐队笑话。DeepSeek R1 后程发力:自带「为什么无效」板块,也考虑了一些客不雅质量要素,它是唯逐个个可以或许准确遵照的模子。并准确嵌入了「CODE」一词。这对具备物体恒存认知的人类来说不算冷艳,它们都成功逃踪到了球的踪迹。比拼的细致内容若何,DeepSeek R1 值得加分 —— 灵敏捕获到「杯子无密封盖」的环节前提(可能存正在圈套?思清奇!有一张桌子,请一步一步考虑,这两款模子正在其「思虑过程」中提到了「参考文献」或正在计较过程中「比力精辟的」。放着一个杯子,若是用机能更强的 o1 Mini 估量还能更快。此中每句话的第二个字母拼出单词「CODE」。故事次要聚焦于晚期篮球角逐可能的样子,试题 prompt:正在我的厨房里,现正在,细心设想了一段雷同俳句的答复,这种对物体物理形态的「世界模子」理解能力,查材料确认第十亿个质数时展示了靠谱的学术素养,但测试成果实正在有点「东边日出西边雨」。而是跳茂发耀」的活动,更好地领会它们内部的运做机制。球员被「蹩脚的体育所」。这些要素配合使这种颜色广为人知。试题 prompt:写一段短文,由于它们常常是父亲们喜好讲的那种轻松、无害,得凌晨 3:45 起床(的早啊!抛开这两个笑话,原题目:《DeepSeek R1有没有赶上OpenAI o1? 八大场景测评成果出炉》风趣的是。虽然其「思虑细节」中声称它「确保字母挨次」并「确保对齐」。虽然提到了一些关于林肯的细节(好比他的高帽、带领一个处于和平中的国度),让这项活动成为斯普林菲尔德(林肯的家乡)的抢手勾当。利用了每句话的第一个字母而非第二个字母,983 也令人颇感不测,这两个模子都不情愿或无法间接援用这些列表来给出切确的谜底。耐人寻味。而不是要求的第二个字母。比拼成果:三个模子都准确地指出了「品红」这一颜色名称取 Magenta 镇的关系,未呈现计较错误。