April 1, 2023
Table of Contents
本文用来记录我对这两个东西的一些笔记。。。
对于大型语言模型(LLM)的研究,一般可分为预训练(pre-training)、模型微调(tuning)与提示工程(promting)三个阶段,门槛和难度也依次降低,其中预训练阶段显然不是我这种级别的玩家可以染指的,但是需要有必要的知识以便于选择合适的模型进行微调(鸡尾酒里的基酒),对于具体模型的选择可参考 其它资料,本文着重介绍后两个东西。
模型微调 和 提示工程 的区别在于后者不改变模型的权重。。。所以后者当然还是比微调简单多啦。。只有在提示工程解决不了的时候我才会去考虑模型微调(能不做 pre-trainning 不做呢 不做 pre-trainning)。。虽然两个东西现在其实都挺玄学(empirical science)的。。。但是我个人觉得模型微调还是比提示工程更魔法一些的。。
许多人轻视提示工程的重要性。。(比如 奥特曼 自己)。。。但是我觉得它在这个阶段确实依然会是很重要的东西。。比如。。当年的元素法典就曾帮助到我很多。。。而 LLM 的提示工程就更重要了。。。简直就是新时代的 提问的智慧 啊。。而且。。。我靠。。提示工程就是自然语言编程的雏形啊。。。多少年来梦寐以求的东西。。。
虽然这个东西是对 LLM 的研究方法,不过我们迁移到诸如 Stable Diffusion、多模态或者其它的什么复杂的模型上应该也问题不大(因为 Transformer 模型被迁移到了很多领域上,视觉领域甚至也有自己的大模型,所以现在很多概念都是统一的)。通常说来能用提示工程解决的肯定也能用模型微调解决(但最好别)。。反之则不能。。
比如说 纸喵上次画的那张钢笔画。。但是更复杂点如果要画模型中目前没有的某个特定画风或者某个特定的人物、动作时。。就可能需要去模型微调了。
再比如我要做 AI Cosplay。。。比较简单的比如模仿猫娘、可能提示词搞搞就可以了。。。
但我要模仿特定的历史名人。甚至我自己时。(除了性格它需要有特定领域的知识)。最好选择模型微调。。
像是 LangChain、GPTIndex 等辅助工具、看起来能实现不少模型微调才办得到的事。。但也只是属于比较高级的提示工程玩法 (Augmentation)。。而像 LoRA 看起来只是外挂了一个文件有点像是提示工程。。但实际上她进行了模型微调。。。。。
不过似乎我也能把提示工程认为是一种最简单的模型微调。。把模型微调认为是比较复杂的提示工程。。。
然后嗯,你猜的没错。。。事实上还真有二者的微妙结合。。。一种叫做 提示微调 的东西。。。
而且。。以后会不会出现 online incremental tuning (类似人类的长期记忆)。。。现在我们也不好说对吧。。
弹丸论破
命运石之门
Posted by
xiaodao
Category: 日常
April 1, 2023
Table of Contents
本文用来记录我对这两个东西的一些笔记。。。
对于大型语言模型(LLM)的研究,一般可分为预训练(pre-training)、模型微调(tuning)与提示工程(promting)三个阶段,门槛和难度也依次降低,其中预训练阶段显然不是我这种级别的玩家可以染指的,但是需要有必要的知识以便于选择合适的模型进行微调(鸡尾酒里的基酒),对于具体模型的选择可参考 其它资料,本文着重介绍后两个东西。
模型微调 和 提示工程 的区别在于后者不改变模型的权重。。。所以后者当然还是比微调简单多啦。。只有在提示工程解决不了的时候我才会去考虑模型微调(能不做 pre-trainning 不做呢 不做 pre-trainning)。。虽然两个东西现在其实都挺玄学(empirical science)的。。。但是我个人觉得模型微调还是比提示工程更魔法一些的。。
许多人轻视提示工程的重要性。。(比如 奥特曼 自己)。。。但是我觉得它在这个阶段确实依然会是很重要的东西。。比如。。当年的元素法典就曾帮助到我很多。。。而 LLM 的提示工程就更重要了。。。简直就是新时代的 提问的智慧 啊。。而且。。。我靠。。提示工程就是自然语言编程的雏形啊。。。多少年来梦寐以求的东西。。。
虽然这个东西是对 LLM 的研究方法,不过我们迁移到诸如 Stable Diffusion、多模态或者其它的什么复杂的模型上应该也问题不大(因为 Transformer 模型被迁移到了很多领域上,视觉领域甚至也有自己的大模型,所以现在很多概念都是统一的)。通常说来能用提示工程解决的肯定也能用模型微调解决(但最好别)。。反之则不能。。
比如说 纸喵上次画的那张钢笔画。。但是更复杂点如果要画模型中目前没有的某个特定画风或者某个特定的人物、动作时。。就可能需要去模型微调了。
再比如我要做 AI Cosplay。。。比较简单的比如模仿猫娘、可能提示词搞搞就可以了。。。
但我要模仿特定的历史名人。甚至我自己时。(除了性格它需要有特定领域的知识)。最好选择模型微调。。
像是 LangChain、GPTIndex 等辅助工具、看起来能实现不少模型微调才办得到的事。。但也只是属于比较高级的提示工程玩法 (Augmentation)。。而像 LoRA 看起来只是外挂了一个文件有点像是提示工程。。但实际上她进行了模型微调。。。。。
不过似乎我也能把提示工程认为是一种最简单的模型微调。。把模型微调认为是比较复杂的提示工程。。。
然后嗯,你猜的没错。。。事实上还真有二者的微妙结合。。。一种叫做 提示微调 的东西。。。
而且。。以后会不会出现 online incremental tuning (类似人类的长期记忆)。。。现在我们也不好说对吧。。
弹丸论破
命运石之门
Posted by
xiaodao
Category: 日常