2.2 作为燃料的数据

为什么代码开源,数据却保密?

垃圾进去,垃圾出来(Garbage In, Garbage Out)。在这个时代,谁拥有高质量数据,谁就拥有了“石油”。

2.2.1 免费的菜谱,昂贵的食材

大家有没有发现一个奇怪的现象? Google、Facebook 这样的巨头,经常把他们最先进的 AI 框架(TensorFlow, PyTorch)或者模型架构(Transformer)免费开源出来,恨不得不仅送你代码,还手把手教你用。

但他们从来不公开 “训练数据”

为什么?

因为 算法是菜谱,数据是食材。

满汉全席的菜谱(算法)全世界都知道,但这不重要。重要的是你有没有那么顶级的熊掌、燕窝(数据)。

如果只有烂白菜(劣质数据),再好的厨子(算法)也做不出好菜。

这就是 AI 时代常见的一条经验法则:高质量数据和算法同等关键,但数据质量往往决定上限

2.2.2 数据就是石油

以前,我们认为软件公司的核心资产是 可口可乐配方(源代码)。 现在,AI 公司的核心资产是 地下的油田(用户数据)

一旦你理解了这一点,就能看懂很多商业竞争:

  • 为什么微信不让淘宝爬它的数据?

  • 为什么马斯克要把 Twitter (X) 的 API 收费?

  • 为什么 Reddit 在 2024 年开始要向谷歌收取数据使用费?

因为他们突然意识到:哪怕是网友们灌水的评论(语料),现在也是炼制“大模型”的珍贵原油。

没有这些原油,那个被称为“智能”的引擎根本转不动。

2.2.3 数据的诅咒:垃圾进,垃圾出

在数据这个领域,有一个著名的诅咒叫 GIGO (Garbage In, Garbage Out)

如果你用网上带有偏见的帖子去训练 AI,AI 很可能会学到并放大这些偏见。

如果你用错误的医疗记录去训练 AI,AI 的医疗建议就会显著增大出错风险。

所以,AI 工程师 80% 的时间,其实不是在高大上的写代码,而是在当 “数据清洁工”。 清洗、去重、标注、对齐……这像极了在炼油厂里过滤杂质。只要杂质没去干净,炼出来的油(模型)就会损坏发动机。

2.2.4 比黄金还贵的“标注”与合成数据

现在最缺的不是原始数据(网上到处都是),而是 “高质量数据”。 近年来,公开可用的高质量语料增速放缓,AI 开始更多依赖自己生产训练样本,这就是 合成数据(Synthetic Data)

  • 一张 X 光片不值钱。

  • 一张 “被顶尖 AI 详细圈出肿瘤位置并由人类专家复核” 的 X 光片,千金难求。

这就是为什么现在有一个庞大的“数据标注产业”。 人工智能,也就是 “有多少人工,就有多少智能”

2.2.5 思考题

既然数据是石油。 请评估一下你自己或者你的公司:你们有没有囤积某种 “只有你们有,别人拿不到,且质量极高” 的数据? 这可能是你们在 AI 时代最重要的护城河之一。

最后更新于