Think图片 - 搜索 News

19 小时

在大模型竞技场 Chatbot Arena（LMSYS）中，早期 Grok-3 版本的得分取得了第一，达到 1402 分（有史以来第一个），超过了包括 DeepSeek-R1 在内的所有其他模型。

23 小时

随后，OpenAI应用研究主管Boris Power更是丝毫不留情面，「看到Grok团队在评估中作弊和欺骗的动机，真令人失望。简而言之，o3-mini在每个评估中都优于Grok-3。Grok-3确实是一个不错的模型，但没有必要过度宣传」。

一些您可能无法访问的结果已被隐去。

今日热点