PG电子_PG娱乐_电子试玩平台Grok 4系列模型发布马斯克放话：在几乎所有学科它都比人类研究生聪明

2025-07-11

　　PG电子,pg娱乐,PG电子试玩平台,PG电子技巧,PG电子下载Grok 4 模型正式发布，马斯克称具备超过研究生水平的跨学科通识推理能力，在多项高难度测试中领先大部分主流模型。

　　Grok 4 Heavy 在多个高难度学术测试中领先其他主流模型，显示出强大的逻辑推理、数学解题能力，是目前唯一一个在美国数学邀请赛（AIME25）中取得满分的AI模型。

　　Grok 4 开放API与订阅计划上线k上下文窗口的调用能力，助力自动化应用落地。

　　Grok 4 的新语音模型亮相，引入多种风格的高自然度语音角色（如“Eve”），支持对话、演绎、朗诵等丰富场景。

　　商业应用初现端倪：Grok 4在AI自动运营模拟平台“Vending Bench”中实现同类模型中最高净收益表现，并被用于前沿生物医疗研究、金融分析、游戏开发等真实工作场景。

　　xAI已启动下一版本的模型训练，将提升多模态理解（图像、视频、音频）与视频生成能力。

　　北京时间7月10日，马斯克旗下人工智能公司xAI正式推出其新一代通用人工智能（AGI）模型——Grok 4，并同步开放API接口及付费订阅版本“Grok 4 Heavy”。Grok 4 Heavy是该公司推出的“多智能体版本”，在整体性能上相比基础款有明显提升。

　　相比Grok 3，Grok 4在模型参数量、训练数据规模和计算资源上进一步提升。Grok 3由xAI的Colossus超级计算机训练，拥有约20万个NVIDIA H100 GPU的计算能力。而Grok 4的训练进一步扩展了Colossus的计算资源，具备更强大的深度推理能力，能够提供更强的逻辑推理与文本生成表现。

　　这场不到1小时的发布会披露了多个重要更新：多模态功能、更快速的推理能力，以及焕然一新的界面设计。Grok 4在多个权威基准测试中创下历史新高，埃隆·马斯克（Elon Musk）将此次发布比作“智能大爆炸时代”的开端。

　　在发布会上，马斯克及团队展示了Grok 4在“HumanEval”、“MATH”、“USMO”、“Harvard-MIT数学考试”、“HELM Last Exam”等权威考试中均取得领先成绩，按马斯克的说法：“Grok 4不只是书本上的聪明”，而是“具备实际应用能力的聪明，在所有领域都超过了研究生的水平，甚至比大多数博士强”。

　　当工具集成进入模型的训练阶段后，Grok 4 在HLE复杂推理任务中准确率提升超过14个百分点，展示出“原生工具智能”训练范式的巨大潜力。

　　Grok 4在不同任务上的性能进步：在推理任务上相比Grok 3有显著提升，达到了10倍的性能改进；在强化学习计算任务上也展现出更强地性能。

　　Grok 4 Heavy 在多个高难度学术测试中领先其他主流模型，显示出强大的逻辑推理、数学解题能力。xAI团队指出，Grok 4 Heavy是目前唯一一个在美国数学邀请赛（AIME25）中取得满分的AI模型。AIME25是一项极具挑战性的高中奥数考试，长期以来被视为评估AI数学推理能力的重要基准。据xAI团队展示的测试数据，即便是OpenAI的GPT-4、Anthropic的Claude 3/4，或谷歌DeepMind的Gemini等主流模型，在该测试中也未能达到满分水平。

　　HLE是一个由专家命题的博士级考试题库，涵盖数学、自然科学、工程、语言学、哲学等多个方向，远超常规模型训练集范围。

　　在业界权威的推理测试「Humanity’s Last Exam」（HLE）完整题集中，Grok 4 Heavy 凭借多智能体推理能力，取得了44.4% 的准确率，相比 OpenAI 的 GPT-4（o3）模型的 21.0%，提升超过 2.1 倍，在同场对比中创下当前已知模型的最高分。

　　Grok 4 拥有自然流畅的语音风格、实时联网能力，并展现出对互联网文化的高度理解，能够精准识别各类梗、俚语。

　　团队成员表示，Grok 4的语音响应速度比之前版本快了2倍，提供5种不同的语音选择，用户每天使用语音功能的时长增长了10倍。

　　在现场，xAI的工作人员与新推出的语音助手 “Eve” 展开了几段轻松幽默的对话。当工作人员说：“数百万观众正看着我们，你兴奋吗？”“Eve”的回答说：“我太激动了，就像站在老维克剧院舞台上，面对人山人海的观众一样。这种感觉，棒极了。你觉得我们该聊点什么，才能不辜负这么多观众的期待？”

　　当工作人员表示有些紧张，甚至请求Eve低声安慰一下，Eve则化身“贴心老友”回应：

　　“深呼吸，亲爱的。你能做到的，就当作我们俩在约克郡酒吧角落里静静聊天。外面的世界不过是浮云一片，让宁静包围你。来吧，慢慢聊，说说你在想什么？”

　　马斯克及团队表示，在 Vending Bench 测试（由创业公司 Interlabs 设计的商业仿线被要求独立运营一家“自动售货机公司”：管理库存、签约供应商、制定价格策略等。

　　Grok 4 结果也表现优异——跑通了全流程决策链，还在净利润指标上超过其他所有模型。这意味着，AI 已不再只是技术演示的工具，而正在接管真实商业流程。

　　发布会上，xAI 展示了一个案例：游戏设计师仅用 Grok 4 API 和工具能力，在短短几小时内完成了一款第一人称射击游戏的制作流程——从设定剧情、生成贴图、搭建场景，到合成音效、输出可运行的游戏文件，全部由AI协助完成。最关键的是，Grok 4 还具备为游戏“自动搜集素材”和“智能资产管理”的能力，大幅降低了个人创作者的制作门槛。

　　此外，xAI 还预告未来将赋予 Grok 4 “玩游戏”和“评游戏”的能力，借助即将上线的多模态模型，它将能理解视频、操控虚拟人物、甚至评估游戏的可玩性与娱乐性。这意味着，AI 不只是“工具”或“玩家”，更可以成为游戏工作室的合伙人，从创意发想到产品发布全流程参与。

　　此外，非营利组织Arc Prize表示，Grok在其复杂的ARC-AGI-2测试中也创下了新的业界最佳成绩。该测试主要考察AI对视觉图案的识别与归纳能力，更接近人类解决抽象问题的方式。Grok的得分为16.2%，几乎是目前商业表现最好的Claude Opus 4的两倍。

　　伴随新模型上线，xAI还推出了迄今为止最昂贵的订阅服务——SuperGrok Heavy，月费高达300美元。订阅用户可以抢先体验Grok 4 Heavy及其最新功能。这一订阅计划定位与OpenAI、谷歌和Anthropic 的高端会员类似，但目前在定价上高于所有主流AI提供商。

　　团队表示，SuperGrok Heavy用户还将优先体验未来几个月即将推出的三款新产品，包括8月上线月发布的多模态智能体，以及10月登场的视频生成模型。

　　尽管 Grok 4在多个基准测试中展现出前沿性能，但围绕其早期版本的争议仍在持续，这也让xAI在向企业用户推广Grok时面临一定阻力。为了进一步推动生态建设，xAI也同步开放了Grok 4的API，鼓励开发者基于该模型构建应用。不过，公司也坦承，其企业服务部门成立尚不足两个月，目前正在与大型云服务提供商接洽，计划将Grok接入主流云平台。

　　团队计划增强Grok 4的视频理解能力，使其能够玩游戏并评估游戏趣味性。预计在2025年下半年完成基础模型v7的训练，并通过后续强化学习提升性能。

　　开发目标包括与Unreal Engine或Unity等主流图形引擎集成，生成艺术资产并创建可运行的游戏文件，预计首款真正优秀的AI视频游戏将在2026年上半年推出。

　　视频：xAI计划在未来3至4周内开始训练视频模型，使用超过10万颗GPU进行训练，重点提升视频生成和理解能力，目标是实现“像素进像素出”（pixel-in, pixel-out）的功能，预计这一功能将在2025年底或2026年初实现显著进展。

　　图像：当前Grok 4在图像理解和生成方面存在弱点。通过v7 基础模型的训练（预计几周内完成），将大幅提升其图像和视频理解能力，包括音频处理，使其能够像人类一样感知世界。这一改进预计将在2025年晚些时候推出。

　　AGI（AGI相关应用）：除了特定领域的优化，Grok 4将继续发展其智能和速度，特别是在编码领域。团队正在训练专用的快速智能编码模型，计划在几周内与用户分享。此外，通过多模态智能体和工具整合，Grok 4将解锁更多应用层面的潜力，尽管具体时间表未明确，但这将是未来发展的核心方向。

　　xAI团队表示，他们不会停下脚步。下一个版本已在训练路上，多模态、更强工具使用、与物理世界的闭环交互都将成为可能。而真正的通用人工智能，正在逐步成为现实。

　　“我们正处于智能大爆炸的起点。”马斯克在发布会上如是说。这不仅是Grok的进化，更是我们与智能未来之间，又一次近距离对视的时刻。（文/腾讯科技特约编译海伦无忌）

上一篇：官方版下载VPG电子_PG娱乐_电子试玩平台5146-单游网

下一篇：小米带你了解问鼎娱乐appPG电子_PG娱乐_电子试玩平台