2026年1月2日Luke

Caret NotebookLM:通过 Solar 100B 指控看主权 AI 的未来和开源

通过围绕 Upstage 的 Solar 100B 模型的讨论,我们从 Caret 作为值得信赖的 AI 伴侣的角度,探讨真正主权 AI 的前进方向以及开源公共验证的重要性。

最近,韩国 AI 社区一直在热烈讨论 Upstage 的 Solar 100B 模型。随着有关该模型源自中国开源模型的说法浮出水面,技术验证的重要性变得前所未有地突出。 Summary of the Solar 100B Controversy

这场辩论不仅仅局限于一家公司的模型,而是向我们所有人提出了一个关键问题:什么构成了真正的**“主权 AI”**,以及为什么与全球开源生态系统的健康联盟至关重要?Upstage 承诺做出透明的回应,以及社区的自愿参与,为健康的科技辩论开辟了一个论坛,促进了国内 AI 生态系统的集体成长。

为了更深入地探讨这个话题,我们在 Caret 使用 Caret Notebook LM 制作了两个视频。

  • 概述:
  • 讨论:

这两个视频都是使用我们的开源项目 NotebookLM to YouTube 创建的。我们将继续通过 Caret 博客分享相关新闻。

Caret 的视角:迈向值得信赖的 AI 伴侣

当然,很难将像 Upstage 这样构建大型模型的公司与像我们这样刚起步的初创公司直接比较。坦率地说,这甚至可能看起来我们只是想赶上这个热门话题的潮流。😅

然而,作为“AI 伴侣”的创造者,以及每天使用 AI 的开发者,这场讨论在另一个层面上引起了我们的共鸣。它充分说明了“信任”和“透明度”对于 AI 技术(尤其是主权 AI)的进步有多么重要,以及通过社区的公共验证过程如何促进健康的科技生态系统。

这正是我们在 Caret 梦想创建一个基于经过稳定性验证的开源 Cline 的“共同进化的 AI 伴侣”的原因。对于一个 AI 来说,要成为开发者最亲密的同事,它必须首先是值得信赖的。只有通过公开源代码、与社区共同发展以及进行持续验证的透明过程,才能巩固这种信任。

我们希望这场讨论能够超越无益的争端,并且像 Upstage 对公共验证的承诺一样,成为整个国内 AI 生态系统重申透明和开放的价值观并共同成长的机会。作为开源社区的一员,Caret 也将努力创建工具和文化,为健康的科技生态系统做出贡献。


[广播后回顾] “日志”如何将所有指控转化为证据

通过 Upstage 的技术验证广播,所有先前的指控都通过清晰的数据和日志得到了证实。您可以在原始链接观看完整的广播。

作为一名开发者,以下是广播中提出的关键证据的摘要,解释了为什么这些证据具有决定性意义,以及最初的批评是如何源于技术误解的。

  1. 决定性证据:WandB 训练日志图表确认“从头开始” 最有力的证据是**“WandB 训练日志图表”**,它记录并可视化了整个模型训练过程。公开分享的图表清楚地显示了一条曲线,其中 Loss 值从第一个检查点开始就从 12 开始,然后急剧下降。

这意味着什么:如果他们通过从预训练模型导入检查点进行微调,那么初始损失不可能这么高(通常从 2-3 左右开始)。

这场争议的核心是“从头开始”的定义。由于许多人对这个标准感到困惑,因此广播首先对其进行了澄清。明确指出,从零开始进行训练必然会导致非常高的初始损失值。

Definition of From Scratch

作为证据,他们公开了记录实际训练过程的 WandB 仪表板的屏幕截图。下图显示了初始 Loss 值从非常高的值开始,这有力地证明了该模型是从零开始学习的。

WandB Training Log Chart

  1. “相似性”陷阱:看方向,而不是幅度 还证明了为什么作为指控起点的“余弦相似性”是一个有缺陷的指标。

该指标的局限性:余弦相似性仅考虑向量的**“方向”**。如果使用相同的架构(蓝图),则由于层的结构特征,向量方向必然相似。

实际比较:当逐个元素地检查权重时,尺度和具体的数值完全不同。它证实了“仅仅因为它们都指向北极星并不意味着它们是同一个手电筒”这一事实。

(作为一个有趣的题外话,下面的图片包含当时 Upstage 对话的片段,就像一个小小的“彩蛋”。😅)

Element-wise Comparison 1 Element-wise Comparison 2

  1. 结构差异:一种“改进”,而不是复制 还清楚地解释了结构特征,表明它不是一个简单的复制品。 Solar Architecture 与 GPT-OSS 120B 的区别:通过添加共享层来加强结构,以实现稳定的训练。

与 GLM 的区别:已确认进行了独立的工程决策和优化,例如大胆地删除了被认为对性能影响很小的 Dense Layers。

结论 这种澄清为开发者社区提供了极大的可信度,因为它不是通过情感诉求来证明的,而是通过数据、日志和架构来证明的。最终,这是一个重申“代码不会说谎”这一真理的时刻。

更多文章