AI 训练师入职必备的大模型训练流程，新手也能看懂

AI科技 2025年10月21日 07:48 0 admin

你知道ChatGPT背后到底经历了哪些训练流程吗？AI训练师在其中扮演了什么角色？本篇文章用最接地气的方式，拆解大模型训练的三大阶段，带你看懂那些“看不见的幕后工程”。新手也能读懂，老手也能复盘——这是一份真正实用的训练流程全景图。

本期内容分享的我们大语言模型的项目是如何产生的

我们从大语言模型的项目初始开始

我们目前市面上的模型现在使用起来非常流畅了，他是怎么训练的，这个训练过程当中会产生一些项目，这些项目就是AI训练师实际工作领域遇到的项目。

我们大模型训练三个流程：预训练-有监督学习(SFT)-强化学习(RLHF)

一、预训练阶段

首先第一个阶段预训练

1、预训练阶段-AI训练师需要做哪些具体工作内容

无标注文本解释：

只需要打标签，不需要深入阅读数据。因为我们不需要对他进行深入阅读，打标签，所以他属于无监督学习。无监督学习就是让模型自己学习，我们给他投喂一大推数据。

让他自己学习里面有什么样的内容，让模型学习了解人类语言的基础规律，学习之后会构建一个初步语言理解和基础表达能力。

这个阶段模式是可以对话的，但是对话能力不是很好

举例子：投喂数据语料是 “10 万条生活对话 + 5 万篇科普短文 + 3 万条新闻稿”

假设我们给预训练模型投喂的是上述海量日常文本（就像给一个婴儿读遍了各种报纸、故事书和路人聊天记录），训练完成后，模型的表现会是这样的：

它 “学会了说话的规矩，但不知道你要什么”

Q：当你问它：“我感冒了，该多喝热水吗？”预训练模型可能会回答：“感冒是常见的疾病，很多人会在生病时喝热水，热水在日常生活中经常被提及，生病期间身体需要水分。”

你会发现：

它知道“感冒”和“喝热水”是高频关联的词（从语料里学到了词汇搭配规律）；
它能组织出语法通顺、逻辑不跑偏的句子（学到了中文的表达习惯）；
但它不会直接回答“是”或“不是”，更不会补充“还可以搭配休息”——因为它没学过“‘回答问题’需要明确回应核心诉求”，只是在“复述语料里和‘感冒+热水’相关的碎片信息”。

它 “认识词的关联，但不懂‘任务目的’”

当你进一步问：“那除了喝热水，还有别的办法吗？”预训练模型可能会说：“除了热水，还有温水、凉水，不同的人喜欢喝不同温度的水，生病时也有人会喝蜂蜜水。科普文章里说过，身体不适时要注意饮食。”

这里的关键局限是：

它懂“除了A还有B”的句式（学了语法规律），也知道“蜂蜜水”和“生病”有关联（从语料里见过类似搭配）；
但它不会“主动推荐具体方法”（比如“多休息、补充维生素C”），因为预训练没教它“‘提建议’需要聚焦‘解决方案’”——它只是在“拼接语料里的相关片段”，而不是“理解你的需求后主动梳理答案”。

对比：它不是 “不会说”，而是 “不会‘按需说’”

Q：如果问一个更简单的问题：“‘开心’的近义词是什么？”

预训练模型大概率能说出：“开心的近义词有愉快、高兴、喜悦。”（因为语料里无数次出现 “开心 / 愉快”“高兴 / 喜悦” 的并列使用，它学到了词汇关联规律）。

但这依然是 “被动匹配语料规律”，而非 “主动完成任务”—— 如果语料里 “开心” 和 “难过” 的否定句多（比如 “我不开心，反而难过”），它甚至可能错把 “难过” 当成近义词（因为没学过 “近义词” 的定义，只是靠统计频率判断关联）。

总结预训练阶段

预训练模型这个阶段，我们可以理解为无监督学习是通过大量数据和文本内容，让模型学习人类语言规律，建立基础语言理解和生成能力。称为大语言模型。

这个阶段将模型视为小孩，把他放在图书馆里学习，现在没有理解能力，思维不足，只能通过机械阅读获取知识。只是学习到了人类的基础语言规律，基础理解能力。

在预训练阶段，对于AI训练师而言，主要取决于实际的项目，这个阶段需要大量算力，主要是算法同学工作，算法会选择一个基础基座大模型，在基座模型的基础上调整框架，对其进行数据投喂。

AI训练师会对投喂的数据进行简单清洗，清洗完成后模型可以理解这些数据，让它自己阅读。AI训练师这个阶段最重要工作就是数据清洗。

算法同学会提供相关规则，我们利用这些规则辅助算法进行数据分析和分类工作。实际工作中预训练阶段这个流程比较少。

总结AI训练师在预训练阶段，主要工作分为三大类。

第一个低质量数据清洗，举例子数据里面出现涉黄暴力，辱骂等这类型数据就不能投喂给大模型。
第二个对混杂数据进行数据大致分类，举例子K12教育类大模型项目，需要将不同科目历史、地理、政治分开。
第三个就是切分，比如我们对长文本数据超过2000字进行切分，在预训练阶段以上三种，就是AI训练师实际工作中内容。

总结来说：预训练阶段就是让大语言模型阅读大量文本内容和书籍，构建基础语言理解和语言生成能力。

AI训练师这个阶段最重要工作辅助算法进行数据分类筛选

二、有监督微调阶段

第二个阶段有监督微调阶段（sft)-AI训练师需要做哪些具体工作内容

解释一下有监督的意思，就是有人为干预，有人来去监督大模型去学习，这里说的人就是AI训练师，这个阶段就需要AI训练师去干预监督模型去学习，预训练阶段形容，此时大模型语言对话和脑子不够成熟。在有监督学习阶段，需要给大模型构造一个大脑，基础的思维理解的能力

有监督微调的定义

有监督微调就是在预训练已经完成的基础上，进行下一步的

有监督微调通过高质量的一些特定的数据进行精细微调

监督微调阶段，我们主要目的：

相当于小孩在图书馆里学习，此时脑海中掌握大量知识，但是不会使用，所以在有监督学习SFT阶段，AI训练师教模型如何使用，如何对话以及像人一样去思考

这个阶段会产生两个项目，一个是通用项目，模型完成基础对话能力，能够像人一样回答和交流。

SFT阶段遇到最多就是文本类项目。训练模型基础对话能力。一旦模型拥有了基础对话能力，我们就会希望模型在各个领域都能精通。

比如市面我们知道的模型产品DeepSeek逻辑推理能力很不错，在比如豆包情感交流能力也是表现还可以的。每个模型都有各自优势和强项，这些强项都是完成通用项目基础上，一些专项训练得来的。

专项项目也分为三个级别分类，一级分领域上，在进行详细分类，包括知识百科，上下文对话能力，代码生成能力等….

有些专项训练需要专业人士，相当于专业领域的研究生和博士，教模型这个领域专项长处，提升模型整体能力和优势。

实际工作阶段大量工作内容，都是在有监督学习阶段，这个阶段非常重要。

在这个过程中AI训练师具体做什么工作内容？

最基础的是构造优质高质量的标注数据，怎么构造这批数据呢？

第一步需要AI训练师撰写规则和规范，了解如何筛选出优质的数据。

第二步需要AI训练师去撰写标注规则。

第三步是对项目全流程把控，负责项目进度把控监督微调训练任务。

这些就是AI训练师在有监督微调SFT，工作中要完成的实际工作内容。

以上就是监督微调SFT阶段所有内容。

SFT阶段就是提升我们语言表达能力，在这个过程中我们要进行有监督微调。需要人去训练，在这个训练过程中会产生两个项目，一个是通用项目，通用项目就是提升模型的对话能力，让模型能够像人一样对话。

第二个就是专项项目会分不同的领域。比如说我是医学方向的项目，我们就会在专项领域这里提升模型医学领域知识点的能力

这个过程中AI训练师重要工作内容，构建高质量数据，撰写规则，全流程把控落地实施。

最后一个工作内容数据回收，需要对整个项目进行复盘迭代。

三、强化学习阶段

第三个阶段强化学习阶段（RLHF)-AI训练师需要做哪些具体工作内容

在完成有监督学习SFT阶段，我们来说一下模型训练最后一个阶段强化学习RLHF，前面模型经历了，无监督和有监督学习阶段之后

我们想让模型可以自主学习，强化学习可以理解为让模型自主学习

先说强化学习的定义：强化学习最重要方式依赖人类反馈，然后优化语言模型，

这个阶段重要的依据是人类的反馈，它的反馈与我们有监督微调SFT阶段的人类反馈不同，SFT阶段我们只需要投喂优质的数据即可。

模型通过不断进化学习可以回复对的内容，其实在有监督学习阶段模型已经可以学习对的内容了。

但是我们希望模型可以回复的更优质、更好，我们可能会让模型生成3个或者5个内容，在这个5个内容里，我们会给模型生成的内容排序，谁好谁坏，模型只需要得到谁好谁坏的反馈，然后自主学习。

通过反馈让模型下一次生成的内容更好，例如这一次最高分是4分，下一次所有的回复都要达到4分，类似我们来鞭策模型，让模型自己学习。

总结一个话去说，让AI能够从人类反馈中自主学习，这是一个非常重要能力，我们需要它可以自主学习，让模型能够自循环。

在这个阶段，我们如何让模型自主学习？

AI训练师可以理解为模型的老师，我们在过程中逐步驯化它。在这个过程我们会训练一个小模型，通过前期几万次对话和多次训练，训练出来的小模型。这个小模型非常关键，它不是我们日常生成对话类型的模型，而是代替我们作为一个小老师的存在，它的作用就是给我们基础的大模型打分。

例如大模型一次性生成三五个内容，小模型就会对其打分。只要训练出这个小模型，就能实现自循环。这就是如何实现让大模型自主学习。

我们需要训练一个小模型，作为老师对大模型进行评分。例如，大模型一次生成三个内容，我们就会进行评分：第一个是谁，第二个是谁，第三个是谁，依次循环

也会对他们进行打分制这次最高分是3分，下次他的最高分可能变成4分或者5分，依次让模型自主提升和训练。在这个过程中，让模型自主思考如何表达到最优秀和最好，这就是模型自主学习的过程。

我来介绍一下这个小模型，它有个专业名词，相当于它来监督大模型，因此称为奖励机制，让大模型进行自主学习，这里有一个专业名词，reward model。它是我们未来工作中强化学习阶段最重要的一个项目就是训练reward mode

训练reward model，这个过程中，我们也会根据项目不同领域进行训练，例如金融领域、法律领域和医学领域。

比如我们是做医学领域的reward model，我就要训练一个医学领域的reward model。这个就是我们过程当中最重要产生的项目。

我们在训练 reward model 方面最重要的一点是，让reward model学习人类，如何对大模型进行反馈、如何思考和评分。

在这个过程中，我们的项目会根据不同领域进行训练，例如金融领域、法律领域等各个领域。在各个领域里面会训练强化学习的项目。

总结一下，强化学习，我们让大模型进行自主学习。在自主学习过程中，我们会训练reward model，训练一个小老师，给模型打分，让大模型自主进行循环和迭代学习。

在这里，我们在分享一个例子，阿尔法GO大战李世石，大概是花了两年时间去训练阿尔法GO，赢得了李世石。

在训练过程中，他们大多数用的是SFT监督学习和预训练阶段。他们会投喂给模型什么的棋谱，哪些步骤去下围棋，能最终赢得胜利。这时人类干预的会比较多。

在赢了李世石之后，这家公司又训练了一个新的模型叫阿尔法Zero, 阿尔法Zero就是让它自主学习，自己和自己下棋

此时我们只需要反馈，那盘棋局是赢，那盘棋局是输的就可以。我们不需要给模型投喂什么棋谱也不需要告诉它该如何下棋。这个过程中，阿尔法Zero这个模型就会自己研究棋谱，该怎么赢。整个过程阿尔法Zero就花了几个月时间，战胜了阿尔法GO，这个流程就是强化学习的过程。前面阿尔法Go就是大量SFT训练的过程。

重点来了

我们AI训练师在强化学习阶段，该做哪些工作内容呢？

这个阶段和我们SFT阶段工作内容很像

第一AI训练师需要构造高质量的数据

第二针对强化学习的数据。紧接着撰写规则

第三对项目全流程把控。唯一多了一个地方就是完成，rewardmodel模型的训练。

以上就是大模型训练经历的三个项目

本文由 @小五- 原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

如何讲清一个需求？聊聊用户故事地图、PRD、原型图与验收标准

2千元内最亮便携投影！当贝Smart 2图赏

发表评论