Skip to content
OpenWalk
Go back

蒸馏

Edit page

你读完一本书,记了笔记,画了思维导图,觉得自己懂了。

三天后有人问你那本书讲了什么,你只能说出个大概。更可怕的是:遇到一个新问题,你发现那些”精华”根本派不上用场——你知道那个词,但不知道怎么用。

这个感觉你熟悉吗?

我们从小被教育要”会学习”,标准动作是:划重点、记笔记、背精华。但从来没有人告诉我们,为什么记住了精华,还是不会用?

把知识”提炼”出来,和真正”理解”,是两件事。

这就是蒸馏这件事有意思的地方。它不只是一个方法论,它背后藏着一个关于我们怎么认知、怎么学习、怎么成长的基本结构。


先说清楚什么叫蒸馏。

蒸馏最初是一个物理过程。酒精和水混在一起,加热到78度,酒精先蒸发,冷凝收集,得到更纯的酒精。这就是蒸馏——利用沸点差异,把混合物分开。

但这个词后来被借用到很多地方。你在书里看到”知识蒸馏”这个词,指的是把大模型学到的能力迁移到小模型;你自己做笔记、划重点,也是在蒸馏;老匠人把手艺传徒弟,也是一种蒸馏——把经验浓缩成可描述的规则。

我意识到,这些用法有一个共同的结构:把复杂的东西变简单,把混合物变纯净,把大量的、模糊的、混沌的输入,变成少量的、清晰的、可操作的东西。

这是蒸馏的本质:不是扔掉,是提取;不是抛弃,是聚焦。

但问题也在这里开始了。


我们为什么会蒸馏?

不是因为我们想,而是因为我们必须。

人的认知资源是有限的。世界的信息是无限的。你每天接受的信息量远超你能够处理的量。你必须忽略大部分。你必须选择性地注意。你必须把复杂度降下来才能行动。

这是存在的基本结构,不是选择。

所以蒸馏不是一种”好习惯”,是一种生存机制——你的大脑每天都在蒸馏,只是你没有意识到。

当你走进一个房间,大脑自动忽略了几百个视觉信号,只注意到其中几个;当你听一个人说话,大脑自动把长句子的细节压缩成几个要点。这些都是蒸馏。

但这种自动蒸馏有一个问题:它保留下来的,不一定是真正重要的。

这就是为什么我们需要学会主动蒸馏——不是让大脑自动处理,而是有意识地去判断:什么该留,什么该舍?


这里出现了一个根本性的张力。

蒸馏能提取”精华”,但被提取的”精华”不是全部。

你读完一本小说,把情节梗概、人物关系、主题思想整理成一张纸。这张纸是精华。但托尔斯泰写《战争与和平》时的唠叨、重复、那些”没用的”细节——如果抽离这些,那张纸上的”精华”还是托尔斯泰吗?

笔记是书的精华。但笔记不是那本书。

这不是说笔记没用,而是说:任何蒸馏都丢失了某些东西,而且丢失的这些东西里,可能藏着真正重要的东西。

我之前以为蒸馏是”去粗取精”,很简单。但后来我发现,这个”粗”和”精”的边界不是客观的,是由蒸馏的人决定的。而蒸馏的人,往往不知道自己丢弃了什么。

这才是蒸馏最深的问题:蒸馏者无法事先证明自己丢弃的不是精华。


大模型时代,这个矛盾变得格外清晰。

AI研究者把大模型的”知识”蒸馏到小模型里,用大模型的软概率分布去训练小模型。这些软概率分布里藏着”暗知识”——不只是”答案是A”,还有”我认为A的概率是80%,B是15%,还有5%的犹豫”。

这些不确定性结构才是蒸馏最有价值的部分,因为它保留了判断的弹性。

但即便如此,蒸馏能迁移的仍然是有限的。

可以蒸馏:看到猫的照片,输出”猫”。 不能蒸馏:为什么”猫”这个概念对你有意义。

可以蒸馏:一个观点的核心论点是什么。 不能蒸馏:这个论点为什么在这个语境下是重要的。

可以蒸馏:遇到这类问题的解决套路。 不能蒸馏:什么时候这个套路会失效。

你发现了吗?蒸馏能提取”做什么”,不能提取”怎么做”和”为什么这样做”。

判断力、创造性、真正的理解——这些是蒸馏的边界。它们不是某个部件,是整个系统整体涌现出来的。拆解整体来提取部件,部件就不再是原来的部件了。


这就引出了一个我们很少去想的问题:读书的目标是什么?

不是记住更多。

你读十本书,记了十本笔记,三天后忘掉六本,一年后忘掉九本。这种”学习”只是在往漏水的桶里加水。

读书的目标是建立更好的蒸馏框架。

一个有好的蒸馏框架的人,读一本书能提炼出真正有价值的东西,然后在遇到新问题时调用这个框架。一个没有框架的人,读再多书也只是信息堆积——记得住,但用不上。

但这还不够。更重要的问题是:你知道什么不能被蒸馏吗?

知道什么拒绝被压缩,什么拒绝被简化,什么必须在它的完整性和语境中被体验——这才是智慧的开端。

格式塔心理学早就发现:整体大于部分之和。你把一本书拆成一百个知识点,这一百个知识点的总和不等于你对这本书的理解。理解发生在知识点之间的关系里,而关系是蒸馏不出来的。


这听起来好像在说蒸馏没有用。

不是。

蒸馏是我们对抗认知有限性的基本方法。我们别无选择。

但知道它的边界在哪里,才是真正重要的。

这就把问题从”怎么蒸馏”变成了”知道什么不该蒸馏”。

一个老匠人手艺好,不是因为他能把经验总结成规则教给徒弟,而是因为他知道自己教不了的东西是什么——那些说不清的、直觉层面的东西,徒弟只能在长期相处中自己领悟。这是手艺传承的本质,也是它不能被完全蒸馏的原因。

读一本书也是。你读再多关于写作的书,不动笔写,还是不会写。写作这件事,有些部分只能从写作本身里学,不能从”写作精华”里学。

学习这件事,有些部分拒绝被蒸馏,只能在做的过程中被体验。


到这里,我发现蒸馏这件事揭示了一个更大的结构:

我们用蒸馏来生存。蒸馏给我们一个可操作的世界图景,让我们能快速判断、快速行动。

但这个图景不是世界本身。它是世界的压缩版。压缩必然丢失信息。

真正重要的知识、真正的智能、真正的洞见——它们都不是”精华”。它们是活的整体性,拒绝被简化,拒绝被压缩。

智慧的开始,是知道这个区别。

那么,你最近在蒸馏什么?

你记的那些笔记、画的那些导图、背的那些精华——它们现在在你心里的什么位置?

更重要的是:那件你知道”不能被蒸馏”的事,现在还记得吗?


这篇文章和站内其他几篇可以放在一起读:

《理解信息化、数字化和智能化》 说的三阶段——感知有限所以映射,记忆有限所以结构化,判断有限所以委托——和蒸馏是同一个背景:认知有限性是我们无法逃脱的存在条件。蒸馏是一种主动的、结构化的”委托”方式。

《智能时代,重新理解DIKW模型》 里的DIKW层级金字塔——数据→信息→知识→智慧——本身就是一套蒸馏框架。只是AI出现后,每一层的转化主体变了,框架的意义也变了。

《时间消费的基本原则》 里有一句话:“好书是作者一生酿成的浓缩液”。我当时写那句话的时候没有用”蒸馏”这个词,但意思是一样的。如果你觉得那篇文章有意思,这篇是它的认知基础。

《反脆弱的真相》 讨论的是”什么不是能力”——不是越强越好,是知道边界在哪里、能修是关键的。这和蒸馏的边界意识是同一个方向:知道自己不能做什么,比知道自己能做什么更重要。


Edit page
Share this post on:

Previous Post
对抗短视频的行为设计
Next Post
Flow, Not Rules