Logit 模型 - 搜索 News

4 天

研究团队首先观察到长推理模型频繁切换思路的现象，并进一步发现这一现象由思考不足导致。为了定量评估思路切换的问题，研究团队引入了一种新颖的思考不足指标，为推理效率低下提供了量化评估框架。同时，研究团队提出了一种缓解思考不足的简单有效方案 —— ...

搜狐11 天

李飞飞团队50美元复刻DeepSeek？其实是基于通义监督微调

继DeepSeek掀起轩然大波之后，AI圈这两天再次被“震惊”。近日有媒体报道称，李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用，成功训练出了一个名为s1的人工智能推理模型。该模型在数学和编码能力测试中的表现，据称与OpenAI的O1和 ...

搜狐11 天

李飞飞团队50美元复刻DeepSeek？其实是基于通义监督微调，我们研究了 ...

新浪网22 天

进军文生图 DeepSeek发布多模态模型Janus-Pro

新京报贝壳财经讯（记者罗亦丹）北京时间1月28日凌晨，近期爆红的国产大模型DeepSeek在GitHub平台发布了Janus-Pro多模态大模型，进军文生图领域。

IT之家22 天

DeepSeek 深夜再放大招：7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源

IT之家1 月 28 日消息，就在北京时间今日凌晨，DeepSeek 宣布开源全新的视觉多模态模型 Janus-Pro-7B，其在 GenEval 和 DPG-Bench 基准测试中击败了 Stable Diffusion 和 OpenAI 的 DALL-E 3。 Janus-Pro 是一种创新的自回归框架，实现多模态信息的统一理解与生成。与以往的方法不同 ...

央视网22 天

性能比肩ChatGPT！这款AI大模型为何震惊硅谷？

【环球时报记者刘扬环球时报特约记者任重】近日，一个名为DeepSeek（深度求索）的中国AI初创公司成为国内外人工智能（AI）大模型领域热议话题。在不到30天的时间里，DeepSeek先后发布了DeepSeek-V3和DeepSeek-R1两款大模型，其成本与动辄数亿甚至上百亿美元的 ...

腾讯网23 天

中国新AI大模型为何火爆全网？人工智能领域专家解读

【环球时报记者刘扬环球时报特约记者任重】近日，一个名为DeepSeek（深度求索）的中国AI初创公司成为国内外人工智能（AI）大模型领域热议话题 ...

华尔街日报中文版23 天

中国公司DeepSeek的AI模型何以让硅谷惊叹不已

美国总统特朗普(Donald Trump)表示，中国公司DeepSeek的低成本AI模型横空出世，应为美国科技行业敲响警钟。他说，美国公司必须专注于赢得美中科技竞争的目标。此外，特朗普还宣布了将针对海外制造的半导体等产品征收关税的计划。封面图片来源：elizabeth frantz ...

第一财经23 天

DeepSeek新模型“火”到海外，Meta首席AI科学家称“开源在超越闭源了”

DeepSeek上周发布开源的DeepSeek-R1，并称该模型性能对标OpenAI o1正式版之后，海外AI业界对该模型的讨论还在持续。热议的焦点在于，当开源模型能力 ...

腾讯网23 天

中国大模型“搅动”硅谷，巨头恐慌，大佬发声：中国AI已追上美国

短短一个月内，中国AI初创公司深度求索（DeepSeek）先后发布了DeepSeek-V3和DeepSeek-R1两款大模型，成本价格低廉，性能与OpenAI相当，让硅谷震惊 ...

虎嗅网23 天

成本仅国外三十分之一，中国大模型已经追上美国了？

本文来自微信公众号：知识分子，作者：张天祁、李珊珊，原文标题：《来自中国的大模型成最大黑马，成本仅国外三十分之一，硅谷恐慌》，头图来自：视觉中国 “Meta的生成式AI部门正处于恐慌中。这一切始于 Deepseek，它使得 Llama 4 在基准测试中已经落后。

中国网24 天

英国《金融时报》：中国AI模型震惊硅谷

英国《金融时报》1月25日文章，原题：中国小型人工智能初创公司深度求索如何震惊硅谷本周，中国一家人工智能（AI）实验室发布尖端模型的 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果