4.3 无监督学习
说明 本讲核心:不用老师也能学,一个人也能在超市里分辨薯片和饼干。 一句话口诀:物以类聚,把书读薄。
4.3.1 没有标签?那自己找规律
如果说监督学习是“有老师辅导的应试教育”,那 无监督学习 就是 “把你丢在外星超市,让你自己分类”。
想象一个外星人来到地球的超市。 它不知道什么叫“薯片”、“牛奶”、“洗衣液”。 但它可以观察:
这些东西外包装长得差不多,都有油渍,大概是一类。
这些是液体,装在瓶子里,大概是一类。
它不需要任何“标签”,靠自己就能把东西分堆。
4.3.2 三大法宝:聚类、降维和异常检测
无监督学习有三大法宝:
聚类(Clustering):把相似的东西归到一起。
例子:电商平台把你和跟你消费习惯类似的人归为一组,然后把那组人买的你没买的东西推荐给你。这就是“猜你喜欢”背后的逻辑。
降维(Dimensionality Reduction):把复杂的东西简化。
例子:一张照片有 100 万个像素(维度太高)。AI 发现,其实只要记住“两条眉毛一张嘴”这几个关键特征(维度降低),就能认出这个人。
异常检测(Anomaly Detection):从寻常中发现不寻常。
例子:银行系统如何发现你的信用卡可能被盗刷了?AI 不需要提前知道所有骗局的模样,它只要知道你平时的消费习惯,一旦发现一笔凌晨 3 点在境外的巨额消费(偏离常态),就会立刻报警。
4.3.3 延伸:自监督学习
还记得我们在 4.1 提到的 自监督学习 吗?它和无监督学习有些渊源——都不需要人工标注的标签。但它有自己独特的方法论,而且正是让 ChatGPT 诞生的关键技术。我们将在 4.5 节单独展开介绍。
4.3.4 思考题
我们常说“大数据杀熟”。 电商平台给你推荐的商品,往往是你正好想买的。 请问:电商平台在给你画像时,用的是 监督学习(根据你买过的东西打标签),还是 无监督学习(把你归类到买了类似东西的人群里),还是两者的结合?
最后更新于
