openai模型个性化训练Embedding和fine-tuning区别

现在基于自然语言和文档进行对话的背后都是使用的基于嵌入的向量搜索。OpenAI在这方面做的很好，它的Cookbook（github.com/openai/openai-cookbook）上有很多案例，最近他们对文档做了一些更新。

GPT擅长回答问题，但是只能回答它以前被训练过的问题，如果是没有训练过的数据，比如一些私有数据或者最新的数据该怎么办呢？

这种情况下通常有两种办法，一种是微调（fine-tuning），一种是嵌入（embedding）。

微调就是在大模型的数据基础上做二次训练，事先准备好一批prompt-complition（类似于问答Q&A）的数据，生成新的模型，这个模型将会包含微调后的数据。

而嵌入则是每次向ChatGPT发送消息（prompt）的时候，把你自己数据结果带上。

王建硕老师对于微调和嵌入有过精妙的比喻：
ChatGPT就像一个已经训练好的家政阿姨，她懂中文，会做家务，但是对你家里的情况不了解。

微调就相当于阿姨第一次到你家干活的时候，你要花一小时时间告诉她家里的情况，比如物件的摆放、哪些地方不能动，哪些地方要重点照顾。

嵌入就相当于你省去了对阿姨进行二次培训的，而是在家里贴满纸条，这样阿姨一看到纸条就知道该怎么做了。

OpenAI的Cookbook也有类似的比喻

微调就像你通过学习准备考试，是一种长期记忆，但过了一周后考试来临，模型可能会忘记袭击，或者记错它从来没有读过的事实。

嵌入就像记笔记，是一种短期记忆，当考试的时候，你把笔记带上，随时翻看笔记，对于笔记上有的内容可以得到准确的答案。

另外嵌入的搜索提问方式相对于微调有一个缺点就是它每次附带的文本数量是有限制的，因为除了原始的问题，它还需要带上搜索出来的问题，GPT-3.5是4K（大约5页），GPT-4最大是32K（大约40页）。

就好比你有成书架的教科书可以借鉴，但每次却只能翻看其中几页笔记。

如果你想构建一个对大量文本问答的系统，OpenAI建议“搜索-问”（Search-Ask）的方法。

也就是先在本地文档库中Search，拿到本地的数据结果，再去Ask，把搜索结果和问题一起交给GPT，这样GPT可以根据你提供的内容以及它模型中的数据，一起将结果返还给你。

至于如何搜索，并非一定要基于向量的搜索，可以有多重搜索方式：
– 基于关键字搜索
– 基于图形的搜索
– 基于向量的搜索

至于在技术上如何实现，OpenAI的Cookbook上也有详细的介绍。

更多细节建议参考：
github.com/openai/openai-cookbook/blob/main/examples/Question_answering_using_embeddings.ipynb

十年开发经验程序员，离职全心创业中，历时三年开发出的产品《唯一客服系统》

一款基于Golang+Vue开发的在线客服系统，软件著作权编号：2021SR1462600。一套可私有化部署的网站在线客服系统，编译后的二进制文件可直接使用无需搭开发环境，下载zip解压即可，仅依赖MySQL 数据库，是一个开箱即用的全渠道在线客服系统，致力于帮助广大开发者/公司快速部署整合私有化客服功能。

开源地址：唯一客服（开源学习版）

官网地址：唯一客服官网

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

openai模型个性化训练Embedding和fine-tuning区别

这种情况下通常有两种办法，一种是微调（fine-tuning），一种是嵌入（embedding）。

OpenAI的Cookbook也有类似的比喻

十年开发经验程序员，离职全心创业中，历时三年开发出的产品《唯一客服系统》

n8n实战：Webhook、条件判断与API集成详解

谷歌太壕了！编程Agent大招至简：开源且免费，百万上下文、多模态、MCP全支持

百度文心快码AI IDE上线，首创设计稿一键转代码、支持MCP

老黄新鲜一刀，RTX 5050正式官宣

国产GPU历史性时刻！摩尔线程、沐曦同日获IPO受理

百度文心快码AI IDE上线，首创设计稿一键转代码、支持MCP

曝苹果拟收购Perplexity AI，人才一并拿走

有道14B低成本轻量模型“子曰3”开源，数学推理性能超越大模型

马斯克Robotaxi今日上路：画饼十年终兑现！团队合影C位武汉理工校友引关注

蚂蚁开源轻量级推理模型Ring-lite，多项Benchmark达到SOTA