PG电子_PG娱乐_电子试玩平台Grok 4系列模型发布 马斯克放话:在几乎所有学科它都比人类研究生聪明

2025-07-11

  PG电子,pg娱乐,PG电子试玩平台,PG电子技巧,PG电子下载Grok 4 模型正式发布,马斯克称具备超过研究生水平的跨学科通识推理能力,在多项高难度测试中领先大部分主流模型。

  Grok 4 Heavy 在多个高难度学术测试中领先其他主流模型,显示出强大的逻辑推理、数学解题能力,是目前唯一一个在美国数学邀请赛(AIME25)中取得满分的AI模型。

  Grok 4 开放API与订阅计划上线k上下文窗口的调用能力,助力自动化应用落地。

  Grok 4 的新语音模型亮相,引入多种风格的高自然度语音角色(如“Eve”),支持对话、演绎、朗诵等丰富场景。

  商业应用初现端倪:Grok 4在AI自动运营模拟平台“Vending Bench”中实现同类模型中最高净收益表现,并被用于前沿生物医疗研究、金融分析、游戏开发等真实工作场景。

  xAI已启动下一版本的模型训练,将提升多模态理解(图像、视频、音频)与视频生成能力。

  北京时间7月10日,马斯克旗下人工智能公司xAI正式推出其新一代通用人工智能(AGI)模型——Grok 4,并同步开放API接口及付费订阅版本“Grok 4 Heavy”。Grok 4 Heavy是该公司推出的“多智能体版本”,在整体性能上相比基础款有明显提升。

  相比Grok 3,Grok 4在模型参数量、训练数据规模和计算资源上进一步提升。Grok 3由xAI的Colossus超级计算机训练,拥有约20万个NVIDIA H100 GPU的计算能力。而Grok 4的训练进一步扩展了Colossus的计算资源,具备更强大的深度推理能力,能够提供更强的逻辑推理与文本生成表现。

  这场不到1小时的发布会披露了多个重要更新:多模态功能、更快速的推理能力,以及焕然一新的界面设计。Grok 4在多个权威基准测试中创下历史新高,埃隆·马斯克(Elon Musk)将此次发布比作“智能大爆炸时代”的开端。

  在发布会上,马斯克及团队展示了Grok 4在“HumanEval”、“MATH”、“USMO”、“Harvard-MIT数学考试”、“HELM Last Exam”等权威考试中均取得领先成绩,按马斯克的说法:“Grok 4不只是书本上的聪明”,而是“具备实际应用能力的聪明,在所有领域都超过了研究生的水平,甚至比大多数博士强”。

  当工具集成进入模型的训练阶段后,Grok 4 在HLE复杂推理任务中准确率提升超过14个百分点,展示出“原生工具智能”训练范式的巨大潜力。

  Grok 4在不同任务上的性能进步:在推理任务上相比Grok 3有显著提升,达到了10倍的性能改进;在强化学习计算任务上也展现出更强地性能。

  Grok 4 Heavy 在多个高难度学术测试中领先其他主流模型,显示出强大的逻辑推理、数学解题能力。xAI团队指出,Grok 4 Heavy是目前唯一一个在美国数学邀请赛(AIME25)中取得满分的AI模型。AIME25是一项极具挑战性的高中奥数考试,长期以来被视为评估AI数学推理能力的重要基准。据xAI团队展示的测试数据,即便是OpenAI的GPT-4、Anthropic的Claude 3/4,或谷歌DeepMind的Gemini等主流模型,在该测试中也未能达到满分水平。

  HLE是一个由专家命题的博士级考试题库,涵盖数学、自然科学、工程、语言学、哲学等多个方向,远超常规模型训练集范围。

  在业界权威的推理测试「Humanity’s Last Exam」(HLE)完整题集中,Grok 4 Heavy 凭借多智能体推理能力,取得了44.4% 的准确率,相比 OpenAI 的 GPT-4(o3)模型的 21.0%,提升超过 2.1 倍,在同场对比中创下当前已知模型的最高分。

  Grok 4 拥有自然流畅的语音风格、实时联网能力,并展现出对互联网文化的高度理解,能够精准识别各类梗、俚语。

  团队成员表示,Grok 4的语音响应速度比之前版本快了2倍,提供5种不同的语音选择,用户每天使用语音功能的时长增长了10倍。

  在现场,xAI的工作人员与新推出的语音助手 “Eve” 展开了几段轻松幽默的对话。当工作人员说:“数百万观众正看着我们,你兴奋吗?”“Eve”的回答说:“我太激动了,就像站在老维克剧院舞台上,面对人山人海的观众一样。这种感觉,棒极了。你觉得我们该聊点什么,才能不辜负这么多观众的期待?”

  当工作人员表示有些紧张,甚至请求Eve低声安慰一下,Eve则化身“贴心老友”回应:

  “深呼吸,亲爱的。你能做到的,就当作我们俩在约克郡酒吧角落里静静聊天。外面的世界不过是浮云一片,让宁静包围你。来吧,慢慢聊,说说你在想什么?”

  马斯克及团队表示,在 Vending Bench 测试(由创业公司 Interlabs 设计的商业仿线 被要求独立运营一家“自动售货机公司”:管理库存、签约供应商、制定价格策略等。

  Grok 4 结果也表现优异——跑通了全流程决策链,还在净利润指标上超过其他所有模型。这意味着,AI 已不再只是技术演示的工具,而正在接管真实商业流程。

  发布会上,xAI 展示了一个案例:游戏设计师仅用 Grok 4 API 和工具能力,在短短几小时内完成了一款第一人称射击游戏的制作流程——从设定剧情、生成贴图、搭建场景,到合成音效、输出可运行的游戏文件,全部由AI协助完成。最关键的是,Grok 4 还具备为游戏“自动搜集素材”和“智能资产管理”的能力,大幅降低了个人创作者的制作门槛。

  此外,xAI 还预告未来将赋予 Grok 4 “玩游戏”和“评游戏”的能力,借助即将上线的多模态模型,它将能理解视频、操控虚拟人物、甚至评估游戏的可玩性与娱乐性。这意味着,AI 不只是“工具”或“玩家”,更可以成为游戏工作室的合伙人,从创意发想到产品发布全流程参与。

  此外,非营利组织Arc Prize表示,Grok在其复杂的ARC-AGI-2测试中也创下了新的业界最佳成绩。该测试主要考察AI对视觉图案的识别与归纳能力,更接近人类解决抽象问题的方式。Grok的得分为16.2%,几乎是目前商业表现最好的Claude Opus 4的两倍。

  伴随新模型上线,xAI还推出了迄今为止最昂贵的订阅服务——SuperGrok Heavy,月费高达300美元。订阅用户可以抢先体验Grok 4 Heavy及其最新功能。这一订阅计划定位与OpenAI、谷歌和Anthropic 的高端会员类似,但目前在定价上高于所有主流AI提供商。

  团队表示,SuperGrok Heavy用户还将优先体验未来几个月即将推出的三款新产品,包括8月上线月发布的多模态智能体,以及10月登场的视频生成模型。

  尽管 Grok 4在多个基准测试中展现出前沿性能,但围绕其早期版本的争议仍在持续,这也让xAI在向企业用户推广Grok时面临一定阻力。为了进一步推动生态建设,xAI也同步开放了Grok 4的API,鼓励开发者基于该模型构建应用。不过,公司也坦承,其企业服务部门成立尚不足两个月,目前正在与大型云服务提供商接洽,计划将Grok接入主流云平台。

  团队计划增强Grok 4的视频理解能力,使其能够玩游戏并评估游戏趣味性。预计在2025年下半年完成基础模型v7的训练,并通过后续强化学习提升性能。

  开发目标包括与Unreal Engine或Unity等主流图形引擎集成,生成艺术资产并创建可运行的游戏文件,预计首款真正优秀的AI视频游戏将在2026年上半年推出。

  视频:xAI计划在未来3至4周内开始训练视频模型,使用超过10万颗GPU进行训练,重点提升视频生成和理解能力,目标是实现“像素进像素出”(pixel-in, pixel-out)的功能,预计这一功能将在2025年底或2026年初实现显著进展。

  图像:当前Grok 4在图像理解和生成方面存在弱点。通过v7 基础模型的训练(预计几周内完成),将大幅提升其图像和视频理解能力,包括音频处理,使其能够像人类一样感知世界。这一改进预计将在2025年晚些时候推出。

  AGI(AGI相关应用):除了特定领域的优化,Grok 4将继续发展其智能和速度,特别是在编码领域。团队正在训练专用的快速智能编码模型,计划在几周内与用户分享。此外,通过多模态智能体和工具整合,Grok 4将解锁更多应用层面的潜力,尽管具体时间表未明确,但这将是未来发展的核心方向。

  xAI团队表示,他们不会停下脚步。下一个版本已在训练路上,多模态、更强工具使用、与物理世界的闭环交互都将成为可能。而真正的通用人工智能,正在逐步成为现实。

  “我们正处于智能大爆炸的起点。”马斯克在发布会上如是说。这不仅是Grok的进化,更是我们与智能未来之间,又一次近距离对视的时刻。(文/腾讯科技特约编译 海伦 无忌)

地址:PG电子试玩平台永久网址【wdhash.cc】 客服热线:400-123-4567 传真:+86-123-4567 QQ:1234567890

Copyright © 2012-2025 PG电子|PG娱乐|PG电子试玩平台 版权所有 非商用版本