首页 AI科技文章正文

AI 训练师入职必备的大模型训练流程,新手也能看懂

AI科技 2025年10月21日 07:48 0 admin

你知道ChatGPT背后到底经历了哪些训练流程吗?AI训练师在其中扮演了什么角色?本篇文章用最接地气的方式,拆解大模型训练的三大阶段,带你看懂那些“看不见的幕后工程”。新手也能读懂,老手也能复盘——这是一份真正实用的训练流程全景图。

AI 训练师入职必备的大模型训练流程,新手也能看懂

本期内容分享的我们大语言模型的项目是如何产生的

我们从大语言模型的项目初始开始

我们目前市面上的模型现在使用起来非常流畅了,他是怎么训练的,这个训练过程当中会产生一些项目,这些项目就是AI训练师实际工作领域遇到的项目。

我们大模型训练三个流程:预训练-有监督学习(SFT)-强化学习(RLHF)

AI 训练师入职必备的大模型训练流程,新手也能看懂

一、预训练阶段

首先第一个阶段预训练

1、预训练阶段-AI训练师需要做哪些具体工作内容

AI 训练师入职必备的大模型训练流程,新手也能看懂

无标注文本解释:

只需要打标签,不需要深入阅读数据。因为我们不需要对他进行深入阅读,打标签,所以他属于无监督学习。无监督学习就是让模型自己学习,我们给他投喂一大推数据。

让他自己学习里面有什么样的内容,让模型学习了解人类语言的基础规律,学习之后会构建一个初步语言理解和基础表达能力。

AI 训练师入职必备的大模型训练流程,新手也能看懂

这个阶段模式是可以对话的,但是对话能力不是很好

举例子:投喂数据语料是 “10 万条生活对话 + 5 万篇科普短文 + 3 万条新闻稿”

假设我们给预训练模型投喂的是上述海量日常文本(就像给一个婴儿读遍了各种报纸、故事书和路人聊天记录),训练完成后,模型的表现会是这样的:

它 “学会了说话的规矩,但不知道你要什么”

Q:当你问它:“我感冒了,该多喝热水吗?”预训练模型可能会回答:“感冒是常见的疾病,很多人会在生病时喝热水,热水在日常生活中经常被提及,生病期间身体需要水分。”

你会发现:

  • 它知道“感冒”和“喝热水”是高频关联的词(从语料里学到了词汇搭配规律);
  • 它能组织出语法通顺、逻辑不跑偏的句子(学到了中文的表达习惯);
  • 但它不会直接回答“是”或“不是”,更不会补充“还可以搭配休息”——因为它没学过“‘回答问题’需要明确回应核心诉求”,只是在“复述语料里和‘感冒+热水’相关的碎片信息”。

它 “认识词的关联,但不懂‘任务目的’”

当你进一步问:“那除了喝热水,还有别的办法吗?”预训练模型可能会说:“除了热水,还有温水、凉水,不同的人喜欢喝不同温度的水,生病时也有人会喝蜂蜜水。科普文章里说过,身体不适时要注意饮食。”

这里的关键局限是:

  • 它懂“除了A还有B”的句式(学了语法规律),也知道“蜂蜜水”和“生病”有关联(从语料里见过类似搭配);
  • 但它不会“主动推荐具体方法”(比如“多休息、补充维生素C”),因为预训练没教它“‘提建议’需要聚焦‘解决方案’”——它只是在“拼接语料里的相关片段”,而不是“理解你的需求后主动梳理答案”。

对比:它不是 “不会说”,而是 “不会‘按需说’”

Q:如果问一个更简单的问题:“‘开心’的近义词是什么?”

预训练模型大概率能说出:“开心的近义词有愉快、高兴、喜悦。”(因为语料里无数次出现 “开心 / 愉快”“高兴 / 喜悦” 的并列使用,它学到了词汇关联规律)。

但这依然是 “被动匹配语料规律”,而非 “主动完成任务”—— 如果语料里 “开心” 和 “难过” 的否定句多(比如 “我不开心,反而难过”),它甚至可能错把 “难过” 当成近义词(因为没学过 “近义词” 的定义,只是靠统计频率判断关联)。

总结预训练阶段

预训练模型这个阶段,我们可以理解为无监督学习是通过大量数据和文本内容,让模型学习人类语言规律,建立基础语言理解和生成能力。称为大语言模型。

这个阶段将模型视为小孩,把他放在图书馆里学习,现在没有理解能力,思维不足,只能通过机械阅读获取知识。只是学习到了人类的基础语言规律,基础理解能力。

在预训练阶段,对于AI训练师而言,主要取决于实际的项目,这个阶段需要大量算力,主要是算法同学工作,算法会选择一个基础基座大模型,在基座模型的基础上调整框架,对其进行数据投喂。

AI 训练师入职必备的大模型训练流程,新手也能看懂

AI训练师会对投喂的数据进行简单清洗,清洗完成后模型可以理解这些数据,让它自己阅读。AI训练师这个阶段最重要工作就是数据清洗。

AI 训练师入职必备的大模型训练流程,新手也能看懂

算法同学会提供相关规则,我们利用这些规则辅助算法进行数据分析和分类工作。实际工作中预训练阶段这个流程比较少。

总结AI训练师在预训练阶段,主要工作分为三大类。

  1. 第一个低质量数据清洗,举例子数据里面出现涉黄暴力,辱骂等这类型数据就不能投喂给大模型。
  2. 第二个对混杂数据进行数据大致分类,举例子K12教育类大模型项目,需要将不同科目历史、地理、政治分开。
  3. 第三个就是切分,比如我们对长文本数据超过2000字进行切分,在预训练阶段以上三种,就是AI训练师实际工作中内容。

总结来说:预训练阶段就是让大语言模型阅读大量文本内容和书籍,构建基础语言理解和语言生成能力。

AI训练师这个阶段最重要工作辅助算法进行数据分类筛选

二、有监督微调阶段

第二个阶段 有监督微调阶段(sft)-AI训练师需要做哪些具体工作内容

解释一下有监督的意思,就是有人为干预,有人来去监督大模型去学习,这里说的人就是AI训练师,这个阶段就需要AI训练师去干预监督模型去学习,预训练阶段形容,此时大模型语言对话和脑子不够成熟。在有监督学习阶段,需要给大模型构造一个大脑,基础的思维理解的能力

有监督微调的定义

AI 训练师入职必备的大模型训练流程,新手也能看懂

有监督微调就是在预训练已经完成的基础上,进行下一步的

有监督微调通过高质量的一些特定的数据进行精细微调

监督微调阶段,我们主要目的:

相当于小孩在图书馆里学习,此时脑海中掌握大量知识,但是不会使用,所以在有监督学习SFT阶段,AI训练师教模型如何使用,如何对话以及像人一样去思考

这个阶段会产生两个项目,一个是通用项目,模型完成基础对话能力,能够像人一样回答和交流。

SFT阶段遇到最多就是文本类项目。训练模型基础对话能力。一旦模型拥有了基础对话能力,我们就会希望模型在各个领域都能精通。

比如市面我们知道的模型产品DeepSeek逻辑推理能力很不错,在比如豆包情感交流能力也是表现还可以的。每个模型都有各自优势和强项,这些强项都是完成通用项目基础上,一些专项训练得来的。

AI 训练师入职必备的大模型训练流程,新手也能看懂

专项项目也分为三个级别分类,一级分领域上,在进行详细分类,包括知识百科,上下文对话能力,代码生成能力等….

有些专项训练需要专业人士,相当于专业领域的研究生和博士,教模型这个领域专项长处,提升模型整体能力和优势。

实际工作阶段大量工作内容,都是在有监督学习阶段,这个阶段非常重要。

在这个过程中AI训练师具体做什么工作内容?

最基础的是构造优质高质量的标注数据,怎么构造这批数据呢?

第一步需要AI训练师撰写规则和规范,了解如何筛选出优质的数据。

第二步需要AI训练师去撰写标注规则。

第三步是对项目全流程把控,负责项目进度把控监督微调训练任务。

这些就是AI训练师在有监督微调SFT,工作中要完成的实际工作内容。

以上就是监督微调SFT阶段所有内容。

SFT阶段就是提升我们语言表达能力,在这个过程中我们要进行有监督微调。需要人去训练,在这个训练过程中会产生两个项目,一个是通用项目,通用项目就是提升模型的对话能力,让模型能够像人一样对话。

第二个就是专项项目会分不同的领域。比如说我是医学方向的项目,我们就会在专项领域这里提升模型医学领域知识点的能力

这个过程中AI训练师重要工作内容,构建高质量数据,撰写规则,全流程把控落地实施。

最后一个工作内容数据回收,需要对整个项目进行复盘迭代。

三、强化学习阶段

第三个阶段强化学习阶段(RLHF)-AI训练师需要做哪些具体工作内容

AI 训练师入职必备的大模型训练流程,新手也能看懂

在完成有监督学习SFT阶段,我们来说一下模型训练最后一个阶段强化学习RLHF,前面模型经历了,无监督和有监督学习阶段之后

我们想让模型可以自主学习,强化学习可以理解为让模型自主学习

先说强化学习的定义:强化学习最重要方式依赖人类反馈,然后优化语言模型,

这个阶段重要的依据是 人类的反馈,它的反馈与我们有监督微调SFT阶段的 人类反馈不同,SFT阶段我们只需要投喂优质的数据即可。

模型通过不断进化学习可以回复对的内容,其实在有监督学习阶段模型已经可以学习对的内容了。

但是我们希望模型 可以回复的更优质、更好,我们可能会让模型生成3个或者5个内容,在这个5个内容里,我们会给模型生成的内容排序,谁好谁坏,模型只需要得到谁好谁坏的反馈,然后自主学习。

通过反馈让模型下一次生成的内容更好,例如 这一次最高分是4分,下一次所有的回复都要达到4分,类似我们来鞭策模型,让模型自己学习。

总结一个话去说,让AI能够从人类反馈中自主学习,这是一个非常重要能力,我们需要它可以自主学习,让模型能够自循环。

在这个阶段,我们如何让模型自主学习?

AI训练师可以理解为模型的老师,我们在过程中逐步驯化它。在这个过程我们会训练一个小模型,通过前期几万次对话和多次训练,训练出来的小模型。这个小模型非常关键,它不是我们日常生成对话类型的模型,而是代替我们作为一个小老师的存在,它的作用就是给我们基础的大模型打分。

例如大模型一次性生成三五个内容,小模型就会对其打分。只要训练出这个小模型,就能实现自循环。这就是如何实现让大模型自主学习。

我们需要训练一个小模型,作为老师对大模型进行评分。例如,大模型一次生成三个内容,我们就会进行评分:第一个是谁,第二个是谁,第三个是谁,依次循环

也会对他们进行打分制这次最高分是3分,下次他的最高分可能变成4分或者5分,依次让模型自主提升和训练。在这个过程中,让模型自主思考如何表达到最优秀和最好,这就是模型自主学习的过程。

我来介绍一下这个小模型,它有个专业名词,相当于它来监督大模型,因此称为奖励机制,让大模型进行自主学习,这里有一个专业名词,reward model。它是我们未来工作中强化学习阶段最重要的一个项目就是训练reward mode

AI 训练师入职必备的大模型训练流程,新手也能看懂

训练reward model,这个过程中,我们也会根据项目 不同领域进行训练,例如金融领域、法律领域和医学领域。

比如我们是做医学领域的reward model,我就要训练一个医学领域的reward model。这个就是我们过程当中最重要产生的项目。

我们在训练 reward model 方面最重要的一点是,让reward model学习人类,如何对大模型进行反馈、如何思考和评分。

在这个过程中,我们的项目会根据不同领域进行训练,例如金融领域、法律领域等各个领域。在各个领域里面会训练强化学习的项目。

AI 训练师入职必备的大模型训练流程,新手也能看懂

总结一下,强化学习,我们让大模型进行自主学习。在自主学习过程中,我们会训练reward model,训练一个小老师,给模型打分,让大模型自主进行循环和迭代学习。

在这里,我们在分享一个例子,阿尔法GO大战李世石,大概是花了两年时间去训练阿尔法GO,赢得了李世石。

在训练过程中,他们大多数用的是SFT监督学习和预训练阶段。他们会投喂给模型什么的棋谱,哪些步骤去下围棋,能最终赢得胜利。这时人类干预的会比较多。

AI 训练师入职必备的大模型训练流程,新手也能看懂

在赢了李世石之后,这家公司又训练了一个新的模型 叫阿尔法Zero, 阿尔法Zero就是让它自主学习,自己和自己下棋

此时我们只需要反馈,那盘棋局是赢,那盘棋局是输的就可以。我们不需要给模型投喂什么棋谱也不需要告诉它该如何下棋。这个过程中,阿尔法Zero这个模型就会自己研究棋谱,该怎么赢。整个过程阿尔法Zero就花了几个月时间,战胜了阿尔法GO,这个流程就是强化学习的过程。前面阿尔法Go就是大量SFT训练的过程。

重点来了

我们AI训练师在强化学习阶段,该做哪些工作内容呢?

这个阶段和我们SFT阶段工作内容很像

第一AI训练师需要构造高质量的数据

第二针对强化学习的数据。紧接着撰写规则

第三对项目全流程把控。唯一多了一个地方就是完成,rewardmodel模型的训练。

以上就是大模型训练经历的三个项目

本文由 @小五- 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap