大神卡帕西拿DeepSeek R1讲强化学习！最新大模型内部机制视频爆火，“没有技术背景也能看懂”

西风
2025-02-06
15:51:08

来源：量子位

3个半小时详解

西风发自凹非寺

量子位 | 公众号 QbitAI

宣布全职搞教育的AI大神Andrej Karpathy（卡帕西），新年第一课来了——

发布三个半小时视频课，深入解析了ChatGPT等大语言模型的内部工作机制，其中涵盖模型开发的完整训练过程、如何在实际应用中最有效地使用它们，还有AI未来发展趋势。

卡帕西强调，这次是为大众准备的，即使没有技术背景也能看懂！

大神卡帕西拿DeepSeek R1讲强化学习！最新大模型内部机制视频爆火，“没有技术背景也能看懂”

他在视频中深入浅出用大量具体示例，如GPT-2、Llama 3.1等，完整讲述了大模型的原理。

当红炸子鸡DeepSeek也没落下，成为一大重点。

卡帕西课程的含金量无需多言，刚一发就被网友团团围住，熬夜也要看的那种。

网友们表示，接下来三个半小时就这样过了：

你知道，Karpathy发布新视频，一整天都会变得非常美好，每个视频都是金矿！

机器学习工程师Rohan Paul看后也表示其中有关于ChatGPT内部工作机制最简洁明了的解释。

话不多说了，以下是重点知识点，文末有完整视频链接～

重点一览

用过类似ChatGPT等工具的人可能都会有这样的疑问：

这个文本框背后是什么？你可以在里面输入任何内容并按回车，但我们应该输入什么？这些生成的词又是什么意思？这一切是如何工作的？你究竟在与什么交流？

卡帕西在视频中详细解答了这些问题。

他从如何构建这样一个LLM展开，详细讲解了所有阶段：

预训练：数据、分词、Transformer神经网络的输入/输出及内部机制、推理、GPT-2训练示例、Llama 3.1基础推理示例。
监督微调：对话数据、“LLM心理学”：幻觉、工具使用、知识/工作记忆、自我认知、模型需要token来思考、拼写、参差不齐的智力。
强化学习：熟能生巧、DeepSeek-R1、AlphaGo、基于人类反馈的强化学习（RLHF）。

预训练

首先是预训练阶段，使模型拥有丰富的知识。

预训练的第一步是下载和处理互联网数据。目标是从互联网的公开资源中获取大量且种类多样的文本、高质量文档，例如FineWeb。

第二步是文本提取。

爬虫获取的是网页的原始HTML代码，需要过滤和处理提取出网页文本，去除导航和无关内容。

还要进行语言过滤，例如只保留英语占比超过65%的网页，不同公司会根据需求决定保留的语言种类，如果过滤掉所有的西班牙语，那么模型之后在西班牙语上的表现就可能不会很好。

之后，还会进行去重、移除个人身份信息等进一步的过滤步骤，最终得到大规模的文本数据，进入训练集。

接下来要做的是在这些数据上训练神经网络。在将文本输入神经网络之前，需要将文本转换为一维符号序列。

通过字节对编码（BPE）算法，将常见的字节组合成新符号，从而减少序列长度并增加符号词汇量。tokenization是将文本转换为符号序列的过程，不同的输入文本会根据tokenization规则生成不同的符号序列。

训练神经网络时，从数据集中随机抽取token作为输入，并预测下一个token。神经网络的输出是下一个token出现的概率分布。

通过训练过程不断更新网络参数，使预测结果与实际数据的统计模式一致。

神经网络内部是一个复杂的数学表达式，输入token序列与网络参数混合，经过多层变换后输出预测结果。现代神经网络结构，如Transformer，具有大量参数和复杂的内部结构，但本质上是通过优化参数来使预测结果与训练数据匹配。

训练过程需要强大的计算资源支持，依赖高性能GPU集群，这些硬件能够高效处理大规模并行计算任务，加速模型的训练和优化。随着技术的发展，训练成本逐渐降低，但大规模模型的训练仍然需要大量的计算资源投入。

卡帕西在视频中以GPT-2为例讨论了训练，包括其参数、上下文长度和训练成本。

之后他又以Llama 3为例讨论了基础语言模型的属性，它可以生成类似于互联网文档的token序列，并将知识存储在其参数中。

然而，模型的输出具有随机性，每次生成的结果可能不同，且模型可能会过度记忆训练数据中的某些内容，导致输出与训练数据高度相似，甚至直接复述某些条目。

这种现象在实际应用中可能会带来问题，例如模型可能无法区分事实和虚假信息，因为它只是基于训练数据的统计规律进行生成。

预训练阶段，模型通过大量互联网文档数据学习生成文本的能力，输出为基础模型，它能够生成与互联网文档统计特性相似的token序列，但本身并不是一个能够回答问题的“助手”。

所以还需要后训练。

后训练

在后训练阶段，模型通过学习人类标注的对话数据来调整其行为，从而能够生成符合人类期望的回答。数据集规模较小，训练时间也相对较短。

早期的对话数据集（如InstructGPT）主要由人类标注人员手工创建，但随着技术的发展，现代的对话数据集越来越多地利用现有的语言模型来生成初始回答，然后由人类进行编辑和优化。这些数据集可能包含数百万条对话，覆盖广泛的主题和领域。

具体来说，后训练包括监督微调（SFT）和强化学习（RL）。

在监督微调阶段，模型通过创建对话数据集，学习如何与人类进行多轮对话。

例如，OpenAI的InstructGPT论文详细介绍了如何通过人类标注者创建对话数据集。

强化学习阶段，目的是让模型通过实践和试错来发现解决问题的最佳方法。

卡帕西用人类在学校学习的过程类比。预训练相当于阅读课本中的背景知识，微调相当于学习专家提供的解题方法，而强化学习则相当于通过练习题来巩固知识，自己探索解题步骤。

具体来说，模型会尝试多种不同的解题方法，这些方法可能来自不同的prompt。之后评估解决方案，检查每个解决方案是否正确。正确的解决方案会被标记为“好”，错误的解决方案会被标记为“坏”。

模型会根据正确答案的解决方案进行训练，强化那些能够得到正确答案的解决方案。这类似于学生在练习中发现有效的方法后，会更多地使用这些方法。

强化学习和人类标注相比，人类标注者在创建训练数据时，很难知道哪种解决方案最适合模型。人类标注者可能会注入模型不理解的知识，或者忽略模型已有的知识，导致模型难以理解。而强化学习让模型通过试错来自主发现适合自己的解决方案。

模型会尝试多种路径，找到能够可靠地达到正确答案的解决方案。

卡帕西用具体示例讨论了强化学习在大语言模型中的应用及其重要性，特别是DeepSeek最近发布的论文引发了公众对这一领域的关注。

他还讲了人类反馈的强化学习（RLHF）工作原理及其优缺点。

最后卡帕西提到了多模态模型的发展，模型能够将音频、图像和文本转化为tokens，并在同一个模型中同时处理。

这种多模态能力将使模型能够进行更自然的交互，例如理解语音指令、处理图像内容等。

目前局限性在于，模型执行任务时，通常是被动地接收任务并完成，无法像人类那样在长时间内持续、连贯地执行复杂任务。

未来可能会出现能够持续执行任务的Agent，可以在长时间内执行任务，并定期向人类报告进度。人类将成为这些Agent的监督者。

持续专注于教育的AI大牛

卡帕西曾任特斯拉AI主管，之后去了OpenAI，去年2月从OpenAI离职。

他在整个AI届拥有超高的人气，很大一部分来自于他的课程。

包括他自己的早期博客文字分享和后来的一系列Youtube视频教程，他还与李飞飞合作开设的的斯坦福大学首个深度学习课程CS231n《卷积神经网络与视觉识别》。

今天不少学者和创业者，都是跟着他入门的。

卡帕西对教育的热情，甚至可以追溯到学生时期在网上教大家玩魔方。

去年7月，从OpenAI离职的卡帕西突然官宣创业，搞了一家AI原生的新型学校——Eureka Labs。

怎么理解AI原生？

想象一下与费曼一起学习高质量教材，费曼会在每一步中1对1指导你。

不幸的是，即使每个学科都能找到一位像费曼这样的大师，他们也无法分身亲自辅导地球上的80亿人。

但AI可以，而且AI有无限的耐心，精通世界上所有的语言。

所以卡帕西要打造“教师+人工智能的共生”，可以在一个通用平台上运行整个课程。

如果我们成功了，任何人都将易于学习任何东西，扩大教育这个概念本身的“范围”和“程度”。

目前在EurekaLabs的官方GitHub账号上也有相关课程了，手把手带你构建一个类似ChatGPT的故事生成大模型，感兴趣的童鞋可以去一睹为快。

视频链接：https://www.youtube.com/watch?v=7kVfqmGtDL8

参考链接：https://x.com/karpathy/status/1887211193099825254

Eureka Labs：
eurekalabs.ai
github.com/EurekaLabsAI

2025 年 2 月
一	二	三	四	五	六	日
	1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

大神卡帕西拿DeepSeek R1讲强化学习！最新大模型内部机制视频爆火，“没有技术背景也能看懂”

大神卡帕西拿DeepSeek R1讲强化学习！最新大模型内部机制视频爆火，“没有技术背景也能看懂”

重点一览

预训练

后训练

持续专注于教育的AI大牛

test

test

文心AIGC

test

test