本报记者 丁蓉生成式人工智能正以前所未有的速度融入人们日常生活。近日,中国互联网络信息中心发布的《生成式人工智能应用发展报告(2025)》显示,截至今...
2025-10-21 0
你知道ChatGPT背后到底经历了哪些训练流程吗?AI训练师在其中扮演了什么角色?本篇文章用最接地气的方式,拆解大模型训练的三大阶段,带你看懂那些“看不见的幕后工程”。新手也能读懂,老手也能复盘——这是一份真正实用的训练流程全景图。
本期内容分享的我们大语言模型的项目是如何产生的
我们从大语言模型的项目初始开始
我们目前市面上的模型现在使用起来非常流畅了,他是怎么训练的,这个训练过程当中会产生一些项目,这些项目就是AI训练师实际工作领域遇到的项目。
我们大模型训练三个流程:预训练-有监督学习(SFT)-强化学习(RLHF)
首先第一个阶段预训练
1、预训练阶段-AI训练师需要做哪些具体工作内容
无标注文本解释:
只需要打标签,不需要深入阅读数据。因为我们不需要对他进行深入阅读,打标签,所以他属于无监督学习。无监督学习就是让模型自己学习,我们给他投喂一大推数据。
让他自己学习里面有什么样的内容,让模型学习了解人类语言的基础规律,学习之后会构建一个初步语言理解和基础表达能力。
这个阶段模式是可以对话的,但是对话能力不是很好
举例子:投喂数据语料是 “10 万条生活对话 + 5 万篇科普短文 + 3 万条新闻稿”
假设我们给预训练模型投喂的是上述海量日常文本(就像给一个婴儿读遍了各种报纸、故事书和路人聊天记录),训练完成后,模型的表现会是这样的:
它 “学会了说话的规矩,但不知道你要什么”
Q:当你问它:“我感冒了,该多喝热水吗?”预训练模型可能会回答:“感冒是常见的疾病,很多人会在生病时喝热水,热水在日常生活中经常被提及,生病期间身体需要水分。”
你会发现:
它 “认识词的关联,但不懂‘任务目的’”
当你进一步问:“那除了喝热水,还有别的办法吗?”预训练模型可能会说:“除了热水,还有温水、凉水,不同的人喜欢喝不同温度的水,生病时也有人会喝蜂蜜水。科普文章里说过,身体不适时要注意饮食。”
这里的关键局限是:
对比:它不是 “不会说”,而是 “不会‘按需说’”
Q:如果问一个更简单的问题:“‘开心’的近义词是什么?”
预训练模型大概率能说出:“开心的近义词有愉快、高兴、喜悦。”(因为语料里无数次出现 “开心 / 愉快”“高兴 / 喜悦” 的并列使用,它学到了词汇关联规律)。
但这依然是 “被动匹配语料规律”,而非 “主动完成任务”—— 如果语料里 “开心” 和 “难过” 的否定句多(比如 “我不开心,反而难过”),它甚至可能错把 “难过” 当成近义词(因为没学过 “近义词” 的定义,只是靠统计频率判断关联)。
总结预训练阶段
预训练模型这个阶段,我们可以理解为无监督学习是通过大量数据和文本内容,让模型学习人类语言规律,建立基础语言理解和生成能力。称为大语言模型。
这个阶段将模型视为小孩,把他放在图书馆里学习,现在没有理解能力,思维不足,只能通过机械阅读获取知识。只是学习到了人类的基础语言规律,基础理解能力。
在预训练阶段,对于AI训练师而言,主要取决于实际的项目,这个阶段需要大量算力,主要是算法同学工作,算法会选择一个基础基座大模型,在基座模型的基础上调整框架,对其进行数据投喂。
AI训练师会对投喂的数据进行简单清洗,清洗完成后模型可以理解这些数据,让它自己阅读。AI训练师这个阶段最重要工作就是数据清洗。
算法同学会提供相关规则,我们利用这些规则辅助算法进行数据分析和分类工作。实际工作中预训练阶段这个流程比较少。
总结AI训练师在预训练阶段,主要工作分为三大类。
总结来说:预训练阶段就是让大语言模型阅读大量文本内容和书籍,构建基础语言理解和语言生成能力。
AI训练师这个阶段最重要工作辅助算法进行数据分类筛选
第二个阶段 有监督微调阶段(sft)-AI训练师需要做哪些具体工作内容
解释一下有监督的意思,就是有人为干预,有人来去监督大模型去学习,这里说的人就是AI训练师,这个阶段就需要AI训练师去干预监督模型去学习,预训练阶段形容,此时大模型语言对话和脑子不够成熟。在有监督学习阶段,需要给大模型构造一个大脑,基础的思维理解的能力
有监督微调的定义
有监督微调就是在预训练已经完成的基础上,进行下一步的
有监督微调通过高质量的一些特定的数据进行精细微调
监督微调阶段,我们主要目的:
相当于小孩在图书馆里学习,此时脑海中掌握大量知识,但是不会使用,所以在有监督学习SFT阶段,AI训练师教模型如何使用,如何对话以及像人一样去思考
这个阶段会产生两个项目,一个是通用项目,模型完成基础对话能力,能够像人一样回答和交流。
SFT阶段遇到最多就是文本类项目。训练模型基础对话能力。一旦模型拥有了基础对话能力,我们就会希望模型在各个领域都能精通。
比如市面我们知道的模型产品DeepSeek逻辑推理能力很不错,在比如豆包情感交流能力也是表现还可以的。每个模型都有各自优势和强项,这些强项都是完成通用项目基础上,一些专项训练得来的。
专项项目也分为三个级别分类,一级分领域上,在进行详细分类,包括知识百科,上下文对话能力,代码生成能力等….
有些专项训练需要专业人士,相当于专业领域的研究生和博士,教模型这个领域专项长处,提升模型整体能力和优势。
实际工作阶段大量工作内容,都是在有监督学习阶段,这个阶段非常重要。
在这个过程中AI训练师具体做什么工作内容?
最基础的是构造优质高质量的标注数据,怎么构造这批数据呢?
第一步需要AI训练师撰写规则和规范,了解如何筛选出优质的数据。
第二步需要AI训练师去撰写标注规则。
第三步是对项目全流程把控,负责项目进度把控监督微调训练任务。
这些就是AI训练师在有监督微调SFT,工作中要完成的实际工作内容。
以上就是监督微调SFT阶段所有内容。
SFT阶段就是提升我们语言表达能力,在这个过程中我们要进行有监督微调。需要人去训练,在这个训练过程中会产生两个项目,一个是通用项目,通用项目就是提升模型的对话能力,让模型能够像人一样对话。
第二个就是专项项目会分不同的领域。比如说我是医学方向的项目,我们就会在专项领域这里提升模型医学领域知识点的能力
这个过程中AI训练师重要工作内容,构建高质量数据,撰写规则,全流程把控落地实施。
最后一个工作内容数据回收,需要对整个项目进行复盘迭代。
第三个阶段强化学习阶段(RLHF)-AI训练师需要做哪些具体工作内容
在完成有监督学习SFT阶段,我们来说一下模型训练最后一个阶段强化学习RLHF,前面模型经历了,无监督和有监督学习阶段之后
我们想让模型可以自主学习,强化学习可以理解为让模型自主学习
先说强化学习的定义:强化学习最重要方式依赖人类反馈,然后优化语言模型,
这个阶段重要的依据是 人类的反馈,它的反馈与我们有监督微调SFT阶段的 人类反馈不同,SFT阶段我们只需要投喂优质的数据即可。
模型通过不断进化学习可以回复对的内容,其实在有监督学习阶段模型已经可以学习对的内容了。
但是我们希望模型 可以回复的更优质、更好,我们可能会让模型生成3个或者5个内容,在这个5个内容里,我们会给模型生成的内容排序,谁好谁坏,模型只需要得到谁好谁坏的反馈,然后自主学习。
通过反馈让模型下一次生成的内容更好,例如 这一次最高分是4分,下一次所有的回复都要达到4分,类似我们来鞭策模型,让模型自己学习。
总结一个话去说,让AI能够从人类反馈中自主学习,这是一个非常重要能力,我们需要它可以自主学习,让模型能够自循环。
在这个阶段,我们如何让模型自主学习?
AI训练师可以理解为模型的老师,我们在过程中逐步驯化它。在这个过程我们会训练一个小模型,通过前期几万次对话和多次训练,训练出来的小模型。这个小模型非常关键,它不是我们日常生成对话类型的模型,而是代替我们作为一个小老师的存在,它的作用就是给我们基础的大模型打分。
例如大模型一次性生成三五个内容,小模型就会对其打分。只要训练出这个小模型,就能实现自循环。这就是如何实现让大模型自主学习。
我们需要训练一个小模型,作为老师对大模型进行评分。例如,大模型一次生成三个内容,我们就会进行评分:第一个是谁,第二个是谁,第三个是谁,依次循环
也会对他们进行打分制这次最高分是3分,下次他的最高分可能变成4分或者5分,依次让模型自主提升和训练。在这个过程中,让模型自主思考如何表达到最优秀和最好,这就是模型自主学习的过程。
我来介绍一下这个小模型,它有个专业名词,相当于它来监督大模型,因此称为奖励机制,让大模型进行自主学习,这里有一个专业名词,reward model。它是我们未来工作中强化学习阶段最重要的一个项目就是训练reward mode
训练reward model,这个过程中,我们也会根据项目 不同领域进行训练,例如金融领域、法律领域和医学领域。
比如我们是做医学领域的reward model,我就要训练一个医学领域的reward model。这个就是我们过程当中最重要产生的项目。
我们在训练 reward model 方面最重要的一点是,让reward model学习人类,如何对大模型进行反馈、如何思考和评分。
在这个过程中,我们的项目会根据不同领域进行训练,例如金融领域、法律领域等各个领域。在各个领域里面会训练强化学习的项目。
总结一下,强化学习,我们让大模型进行自主学习。在自主学习过程中,我们会训练reward model,训练一个小老师,给模型打分,让大模型自主进行循环和迭代学习。
在这里,我们在分享一个例子,阿尔法GO大战李世石,大概是花了两年时间去训练阿尔法GO,赢得了李世石。
在训练过程中,他们大多数用的是SFT监督学习和预训练阶段。他们会投喂给模型什么的棋谱,哪些步骤去下围棋,能最终赢得胜利。这时人类干预的会比较多。
在赢了李世石之后,这家公司又训练了一个新的模型 叫阿尔法Zero, 阿尔法Zero就是让它自主学习,自己和自己下棋
此时我们只需要反馈,那盘棋局是赢,那盘棋局是输的就可以。我们不需要给模型投喂什么棋谱也不需要告诉它该如何下棋。这个过程中,阿尔法Zero这个模型就会自己研究棋谱,该怎么赢。整个过程阿尔法Zero就花了几个月时间,战胜了阿尔法GO,这个流程就是强化学习的过程。前面阿尔法Go就是大量SFT训练的过程。
重点来了
我们AI训练师在强化学习阶段,该做哪些工作内容呢?
这个阶段和我们SFT阶段工作内容很像
第一AI训练师需要构造高质量的数据
第二针对强化学习的数据。紧接着撰写规则
第三对项目全流程把控。唯一多了一个地方就是完成,rewardmodel模型的训练。
以上就是大模型训练经历的三个项目
本文由 @小五- 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
相关文章
本报记者 丁蓉生成式人工智能正以前所未有的速度融入人们日常生活。近日,中国互联网络信息中心发布的《生成式人工智能应用发展报告(2025)》显示,截至今...
2025-10-21 0
10月17日下午5点,南京雨花台区,中国(南京)软件谷F栋,亿维特(南京)航空科技有限公司创始人任文广几乎小跑着赶回办公室。“不好意思,一直在车间测试...
2025-10-21 0
你知道ChatGPT背后到底经历了哪些训练流程吗?AI训练师在其中扮演了什么角色?本篇文章用最接地气的方式,拆解大模型训练的三大阶段,带你看懂那些“看...
2025-10-21 0
不同的模型有不同的优势。一些模型是普遍认可的(如 Claude Sonnet 用于前端),但有很多重叠和主观性。有些模型完全过于强大,对于日常任务来说...
2025-10-21 0
当全球科技公司在人工智能(AI)竞赛中一路狂奔时,AI技术滥用带来的挑战也像硬币的另一面如影随形,其中又以网络钓鱼诈骗带来的负面影响最引人关注。近日,...
2025-10-21 0
市面上一大半的蓝牙音箱,都在用各种夸张的设计来证明自己的存在感。但这款#小米随身蓝牙音箱#它的设计语言,就是克制和融入。横平竖直,没有多余的线条,也没...
2025-10-21 0
证券之星消息,必创科技(300667 10月20日在投资者关系平台上答复投资者关心的问题。投资者提问:听说,卓立汉光又有创新突破,发明为一种闪烁体性能...
2025-10-21 0
一、2025 年空调消费背景随着居民生活品质提升,2025 年空调消费已从 “基础制冷制热” 向 “场景化舒适体验” 全面升级。中国家电协会一季度报告...
2025-10-21 0
发表评论