马斯克Grok 4逆天跑分曝光横扫三大AI测试《,HLE终极考试45%夺冠》碾压Gemini与Claude

Grok 4性能数据提前曝光,在被誉为"人类终极考试"的HLE基准测试中斩获45%的高分,表现远超Gemini和Claude等竞争对手,有望跻身当前最强AI模型行列。埃隆·马斯克透露,该模型基于"第一性原理"构建推理机制,或将重塑大语言模型领域格局。

最新消息显示,Grok 4即将正式发布。值得关注的是,现有Grok版本已实现显著性能提升。网友LEGIT曝光的截图详细展示了Grok 4及其编程专用版本Grok 4 Code在多项关键基准测试中的优异表现,这一数据已获AI领域专家Tibor Blaho证实。

测试数据显示,Grok 4在GPQA(研究生级物理天文测试)、AIME 25(美国数学邀请赛)和SWE-bench(软件工程测试)三大评测中全面领先:GPQA得分87-88%超越Gemini 2.5 Pro的86.4%;AIME 25以95%的准确率大幅领先Claude 4 Opus的75.5%;SWE-bench测试中,Grok 4 Code以72-75%的得分略胜竞争对手。

更令人瞩目的是,在覆盖100多个学科、包含2500道专家级试题的HLE终极测试中,Grok 4取得35%-45%的突破性成绩,达到Gemini 2.5 Pro得分的两倍,更是Claude 4 Opus的4倍有余。这项专为挑战AI极限设计的测试包含14%多模态题型和24%多选题,并设置了严密的防作弊机制。

马斯克此前在微软Build 2025大会上阐释了Grok 4的设计理念:借鉴物理学思维方法,从第一性原理出发构建推理机制。据悉,该模型包含标准版和编程专用版,后者可嵌入代码编辑器提供实时辅助。虽然部分用户对测试结果持保留态度,但社区对Grok 4的期待值持续攀升。

随着编码能力成为AI竞赛的新战场,Grok 4 Code可能成为本次发布重点。各科技巨头纷纷强化其模型的编程能力:谷歌Gemini 2.5改进了代码生成功能,Anthropic的Claude 4增强了AI代理能力,OpenAI则持续优化其代码翻译工具。马斯克特别强调的"特殊编码模型"或将带来新的技术突破。

羲玥公子

1、书名:《男王妃-先宠后爱》,作者:羲玥公子 《先宠后爱》讲诉的是一个痴情王爷和绝色王妃先结婚后恋爱的故事。南宫煦夜自七年前第一次看到玉倾之的时候就入了心,从此其他人再也进不了他的眼,找了七年才最终找到了他。明明是当朝王爷却愿违逆天下三媒六聘娶一个男人,可是他做的这些玉...。

[男王妃],先倾后爱 作者:羲玥公子 当朝玉树临风的熙阳王娶了绝色美男玉倾之。夫妻二人经历重重艰难险阻,共进退,同生死。一生一世,愿得一人心,白首不分离。文中小片段 南宫煦夜:“若有一人进了心,入了髓,就会想死死抓住不愿再放开,即便遍体鳞伤。倾之,你可晓得,那一人,便是你。”玉...。

贤妻要从小开始养 作者:羲玥公子 宋宇辉是一个土生土长的山里孩子 父亲早逝,母亲将他抛弃,他从小跟着爷爷奶奶生活 他的命运跟其他山里的孩子一样,早早辍学,到鱼龙混杂的城市出卖苦力维持生计,但在遇上富家子弟林皓熙之后 改变了他一辈子做农民工的命运 他这一辈子最庆幸的是遇上了他 文攻宠...。

《[高干]总裁很腹黑》by羲玥公子(霸道总裁攻X小职员受 完结)《总裁酷帅狂霸拽》腹黑总裁攻和呆萌受。

《回香城二三事》BY泽仁唯色 (古代架空 江湖游侠攻X奸猾商人受 直掰弯 主受 经商官场 种田文 HE)《绝代商人》BY羲玥公子(古代重生 复仇经商美人攻X温和首富受 受娶攻 生子 HE)《穿到古代搞建设》作者:风中蝴蝶【金手指穿越 HE温润农业受VS腹黑武力攻 种田文 】...。

    附件: