Caret NotebookLM：通过 Solar 100B 指控看主权 AI 的未来和开源

最近，韩国 AI 社区一直在热烈讨论 Upstage 的 Solar 100B 模型。随着有关该模型源自中国开源模型的说法浮出水面，技术验证的重要性变得前所未有地突出。 Summary of the Solar 100B Controversy

这场辩论不仅仅局限于一家公司的模型，而是向我们所有人提出了一个关键问题：什么构成了真正的**“主权 AI”**，以及为什么与全球开源生态系统的健康联盟至关重要？Upstage 承诺做出透明的回应，以及社区的自愿参与，为健康的科技辩论开辟了一个论坛，促进了国内 AI 生态系统的集体成长。

为了更深入地探讨这个话题，我们在 Caret 使用 Caret Notebook LM 制作了两个视频。

这两个视频都是使用我们的开源项目 NotebookLM to YouTube 创建的。我们将继续通过 Caret 博客分享相关新闻。

Caret 的视角：迈向值得信赖的 AI 伴侣

当然，很难将像 Upstage 这样构建大型模型的公司与像我们这样刚起步的初创公司直接比较。坦率地说，这甚至可能看起来我们只是想赶上这个热门话题的潮流。😅

然而，作为“AI 伴侣”的创造者，以及每天使用 AI 的开发者，这场讨论在另一个层面上引起了我们的共鸣。它充分说明了“信任”和“透明度”对于 AI 技术（尤其是主权 AI）的进步有多么重要，以及通过社区的公共验证过程如何促进健康的科技生态系统。

这正是我们在 Caret 梦想创建一个基于经过稳定性验证的开源 Cline 的“共同进化的 AI 伴侣”的原因。对于一个 AI 来说，要成为开发者最亲密的同事，它必须首先是值得信赖的。只有通过公开源代码、与社区共同发展以及进行持续验证的透明过程，才能巩固这种信任。

我们希望这场讨论能够超越无益的争端，并且像 Upstage 对公共验证的承诺一样，成为整个国内 AI 生态系统重申透明和开放的价值观并共同成长的机会。作为开源社区的一员，Caret 也将努力创建工具和文化，为健康的科技生态系统做出贡献。

通过 Upstage 的技术验证广播，所有先前的指控都通过清晰的数据和日志得到了证实。您可以在原始链接观看完整的广播。

作为一名开发者，以下是广播中提出的关键证据的摘要，解释了为什么这些证据具有决定性意义，以及最初的批评是如何源于技术误解的。

决定性证据：WandB 训练日志图表确认“从头开始” 最有力的证据是**“WandB 训练日志图表”**，它记录并可视化了整个模型训练过程。公开分享的图表清楚地显示了一条曲线，其中 Loss 值从第一个检查点开始就从 12 开始，然后急剧下降。

这意味着什么：如果他们通过从预训练模型导入检查点进行微调，那么初始损失不可能这么高（通常从 2-3 左右开始）。

这场争议的核心是“从头开始”的定义。由于许多人对这个标准感到困惑，因此广播首先对其进行了澄清。明确指出，从零开始进行训练必然会导致非常高的初始损失值。

Definition of From Scratch

作为证据，他们公开了记录实际训练过程的 WandB 仪表板的屏幕截图。下图显示了初始 Loss 值从非常高的值开始，这有力地证明了该模型是从零开始学习的。

WandB Training Log Chart

该指标的局限性：余弦相似性仅考虑向量的**“方向”**。如果使用相同的架构（蓝图），则由于层的结构特征，向量方向必然相似。

实际比较：当逐个元素地检查权重时，尺度和具体的数值完全不同。它证实了“仅仅因为它们都指向北极星并不意味着它们是同一个手电筒”这一事实。

（作为一个有趣的题外话，下面的图片包含当时 Upstage 对话的片段，就像一个小小的“彩蛋”。😅）

Element-wise Comparison 1 Element-wise Comparison 2

结构差异：一种“改进”，而不是复制还清楚地解释了结构特征，表明它不是一个简单的复制品。与 GPT-OSS 120B 的区别：通过添加共享层来加强结构，以实现稳定的训练。

与 GLM 的区别：已确认进行了独立的工程决策和优化，例如大胆地删除了被认为对性能影响很小的 Dense Layers。

结论这种澄清为开发者社区提供了极大的可信度，因为它不是通过情感诉求来证明的，而是通过数据、日志和架构来证明的。最终，这是一个重申“代码不会说谎”这一真理的时刻。