transformers - 搜索 News

腾讯网2 小时

基于结构化状态空间对偶性的贝叶斯注意力机制设计与实现

当前的大型语言模型在处理长序列文本时面临挑战。主要的瓶颈在于注意力机制，它将文本处理为单词（或 tokens）序列。注意力计算的复杂度随序列长度 T ...

52 分钟

686名员工，人均一年爆赚3000万，这是什么神仙公司？

值得一提的是，这里面的员工人数是年度博客里没有提及的内容。可以看到，尽管同比2023年已经扩张了31%的规模，但Supercell目前仍仅有686名员工。要知道，这在国内游戏行业的语境下，可能还说不上是一家“大厂”。

20 小时

Transformer从自然语言到计算机视觉的跨界之旅

近年来，由ChatGPT掀起的AGI革命如火如荼，但可能鲜有人知，GPT背后的基石模型——Transformer，才是这场革命的真正推手。这项集各种神经网络大成的结构，包含了MLP前馈层、残差网络、自注意力机制（可以认为是卷积网络的一种推广），本身就是一种变体的循环神经网络。这种设计使其能学习极其复杂的数据逻辑，无论是在自然语言处理、计算机视觉，还是金融数据分析、游戏AI设计、基因序列分析、音频生 ...

4 小时

4500美元验证强化学习「魔力」，1.5B模型也能超越o1预览版，模型 ...

根据 Deepseek 公布的信息，许多人认为，只有训练更大规模的模型，才能真正发挥强化学习（RL）的威力。然而，训练大模型需要庞大的计算资源，让开源社区望而却步。目前的工作（如 TinyZero）仅在简单任务上复现了所谓的 “Aha moment” ...

来自MSN5 小时

4090单卡跑671B DeepSeek-R1，清华团队开源项目再破大模型推理门槛

DeepSeek-R1火遍海内外，但推理服务器频频宕机，专享版按GPU小时计费的天价成本更让中小团队望而却步。

20 小时

Transformer推动人工智能深度学习新进展

随着人工智能技术的蓬勃发展，Transformer模型的影响力和应用范围也在不断扩大。这个改变游戏规则的模型已经成为学界与业界探索新技术的关键。面对这一趋势，迅速掌握并应用Transformer将极大增强个人的行业竞争力，为未来的人工智能发展打下坚实的基础。返回搜狐，查看更多 ...

知乎 on MSN5 小时

4500美元复刻DeepSeek神话，1.5B战胜o1-preview只用RL！训练细节全公开

编辑：编辑部【新智元导读】只用4500美元成本，就能成功复现DeepSeek？就在刚刚，UC伯克利团队只用简单的RL微调，就训出了DeepScaleR-1.5B-Preview，15亿参数模型直接吊打o1-preview，震撼业内。强化学习迎来重大突破！

腾讯网20 小时

4500美元验证强化学习「魔力」，1.5B模型也能超越o1预览版

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@ ...

钛媒体APP on MSN23 小时

当前位置：首页» 资讯» 新科技» 正文

就在DeepSeek引发美国科技界焦虑与“双标”行为之际，美国增长最快的云安全初创公司Wiz旗下安全研究团队也在密切关注DeepSeek是否存在安全风险问题。过去一年，Wiz已经报告了多个人工智能大模型项目存在的安全漏洞。1月29日，Wiz报告称De ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果