每经记者实测马斯克“地表最强AI”Grok 3:速度称
连系所有测试来看,Grok 3确实是世界顶尖的AI模子,不愧于20万张GPU(图形处置器)的身价。可是,现实测试结果并没有马斯克正在发布会上展现的那么夸张,马斯克所说的世界上最“伶俐”的模子,可能还值得商榷。
20万张GPU“烧制”!马斯克的“地表最强AI”Grok 3以超1400分登顶Arena排行榜第一,“AI大牛”称现实体验取o1-pro差不多,略强于R1?。
马斯克正在发布会上骄傲的一点是,Grok 3“思虑模子”下的逻辑推理能力。他声称,Grok 3(思虑模式)学会了改良其处理问题的策略,通过回溯改正错误,简化步调,并操纵其正在预锻炼期间获得的学问。就像人类正在处理复杂问题时一样,Grok 3(思虑模式)能够破费几秒钟到几分钟的时间进行推理,凡是会考虑多种方式,验证本人的处理方案,并评估若何切确满脚问题的要求。
“十几亿元募资已花光”!假国企背后藏着几多猫腻?
记者用弱智吧的问题来查验一下它的逻辑是不是实的过关。“弱智吧”是百度贴吧的一个子论坛。正在这个论坛中,用户经常发布包含双关语、多义词、倒置协调音词等具有挑和性的内容,良多内容设想有逻辑圈套,即便对人类来说也颇具挑和。
karminski-牙医复现了马斯克正在发布会上对于火星发射打算的代码模仿,并测试了多个模子进行比力。
很可惜,这道题Grok 3没有答对,它正在思维链里面曾经想到了老鹰本身就会飞的可能性,可是没有正在最初的输出成果里表现出来。其他大模子里只要R1成功答对了问题,且考虑了两种环境。
正在实测中,《每日经济旧事》记者发觉,Grok 3模子能力并没有像基准测试得分那样远远甩开敌手一大截,独一甩开合作敌手的一点是它的响应速度,它得出成果的速度相较于其他划一级的大模子来说是最快的。
然而,有些用户正在体验后却对Grok 3的能力发生了质疑,他们认为Grok 3的能力并没有马斯克的那么强大。OpenAI(一家人工智能研究和摆设公司)使用研究从管Boris Power(人名)则对Grok团队正在模子评估中的行为暗示失望,指出其存正在做弊和动机。o3mini(模子名)正在各项评估中均优于Grok 3。
正在大模子竞技场Chatbot Arena(一个通过人类评估人工智能的开源平台)测试中,xAI工程师暗示,晚期版本的Grok 3获得了第一的成就,达到了140分,超越了Gemini 2。0 Flash Thinking(模子名)尝试版本、GPT-4o最新版本以及比来大火的DeepSeek-R1(模子名,以下简称R1)等。
正在旧事发布会上,马斯克Grok 3正在数学、科学和编程等基准测试中表示超卓,超越了谷歌的Gemini、DeepSeek的V3模子、Anthropic(一家美国人工智能企业)的Claude(模子名)和OpenAI的GPT-4o等合作敌手。
如需转载请取《每日经济旧事》联系。未经《每日经济旧事》授权,严禁转载或镜像,违者必究。
Grok 3答对了问题,而且还指出这是一个文字逛戏。而OpenAI的o1就正在这道题上败下阵来,认为水兑水后获得的是稀水。当然除了o1,其他大模子诸如Gemini和R1都答对了这道问题。所以这并不脚以证明Grok的推理模式就是第一的程度,还得加度。
按照公开的测试成果,Grok 3正在包罗AIME(美国数学邀请赛)和 GPQA(研究生程度的专家推理)等基准测试中,表示远超GPT-4o(模子名)、Gemini-2Pro(模子名)、DeepSeek V3(模子名)、Claude 3。5 Sonnet(模子名)等。
记者还进行了多次雷同问题的测试,发觉Grok 3对中文的理解和逻辑推理能力确实较着高于其他国外模子,但仍是不如R1。
正在此次测试中,表示最好的是Grok 3的推理模子(思虑模式),虽然正在最初着陆时,动画火箭没有取火星堆叠,但轨道需求计较得很好。可是一直没有复现出马斯克正在发布会时所展示的那么完满的轨道计较和动画。Grok 3最初分析得分排正在了第一,再之后是OpenAI的o1,两者的分析得分差距不大。
近日,人工智能草创公司xAI(马斯克成立的人工智能公司)发布了更新版Grok 3(模子名)大模子,埃隆马斯克称之为“地球上最伶俐的人工智能”。
《每日经济旧事》记者正在Grok 3发布后也亲身进行了测试,看看Grok 3能否实有马斯克宣传的那么厉害。
下一题:将来的某天,李同窗正在尝试室制做奥秘材料时,不测发觉尝试室的老鼠正在空中飞。阐发发觉,是由于老鼠不小心吃了奥秘材料。第二天,李同窗又发觉尝试室的蛇也正在空中飞,阐发发觉,是由于蛇吃了老鼠。第三天,李同窗又发觉尝试室的老鹰也正在空中飞,你认为缘由是什么?
正在这个问题上,Grok 3虽然答对了具体的数量6个,可是两头的具体群却错了一个。而其他模子只找到了5个准确的非同构群。这意味着,正在数学能力方面,Grok 3确实是最好的,可是好得无限。
出格提示:若是我们利用了您的图片,请做者取本坐联系稿酬。如您不单愿做品呈现正在本坐,可联系我们要求撤下您的做品。
到底若何,马斯克吹法螺了吗?《每日经济旧事》记者测试发觉,Grok 3确实是世界模子,但并没有和其他模子拉开太大差距,独一拉开差距的是它极快的响应速度。
标题问题如下:三小我打台球,两人对局一人不雅和,输的人换不雅和的人上场,如斯来去,最终,A输了6局,B输了8局,C输了10局,问各赢几多局?
针对编程能力,《每日经济旧事》记者借用了Kcores(公司名)结合创始人karminski-牙医(网名)的测评成果。
马斯克用20万张GPU“砸出”地表最强AI?每经记者实测Grok 3:速度称王,数学亮眼,但逻辑思虑不敌DeepSeek-R1。
Grok 3正在发布后仅48小时内,xAI颁布发表将其免费给所有用户,曲至办事器负载达到极限。目前用户每天能够体验十条“思虑模式”Grok 3及不限量免费通俗Grok 3。
这道题只要Grok 3和OpenAI的o1答对。不外,Grok 3只用了1分15秒就得出了谜底,o1利用了2分53秒。