刚刚,OpenAI开源模型疑似被手滑「泄露」?!gpt-oss-20b 和 gpt-oss-120b!网友@apples_jimmy在这组模型上传Hu...
2025-08-01 0
刚刚,OpenAI开源模型疑似被手滑「泄露」?!
gpt-oss-20b 和 gpt-oss-120b!
网友@apples_jimmy在这组模型上传Hugging Face后一分钟内就发现了。
99%的概率这就是OpenAI的开源模型——
gpt属于OpenAI,oss代表开源软件,20b和120b代表了两个参数版本。
幸运的是,在它被删除之前,Jimmy Apples保存了配置,在只有不到「1分钟」的时间窗口!
他分享了一段LLM的配置文件,极有可能是OpenAI即将开源模型的详细参数。
这组参数像是一个基于MoE(Mixture of Experts)混合专家架构的高容量模型,具备以下几个特点:
· 36层Transformer,每层可能有MoE路由;
· 大规模MoE设置(128个专家,每个token激活4个);
· 词表超过20万,可能支持多语种或代码混合输入;
· 上下文窗口为4096,但也有滑动窗口和扩展RoPE,表明模型可能具备处理更长上下文的能力;
· 使用RoPE的NTK插值版本,这是许多模型扩展上下文的一种方式(如GPT-4 Turbo使用的方式);
· 注意力头多达64个,但键/值头只有8个,意味着模型用的是是Multi-QueryAttention(MQA)。
另一位网友@secemp9似乎验证了这次「泄露」的真实性。
他不仅也在Hugging Face上发现这个模型,甚至还有一位OpenAI成员点赞了他的爆料推文。
上传这个模型的组织叫做「yofo-happy-panda」,共有三名成员。
其中,Dominik Kundel正是OpenAI的现任员工,目前负责开发者体验和SDK。
有网友猜测,所谓的提前泄露,或许是GPT-5发布前的预热?
如果真是这样的参数配置,你满意吗?
相关文章
刚刚,OpenAI开源模型疑似被手滑「泄露」?!gpt-oss-20b 和 gpt-oss-120b!网友@apples_jimmy在这组模型上传Hu...
2025-08-01 0
7月18日上午9点,随着一声锣响,2025中国联通合作伙伴大会正式开市。本次大会以“向实同行 共创融合新生态”为主题,中国联通与众多合作伙伴共同发布了...
2025-08-01 0
#头号创作者激励计划#Meta首席执行官马克·扎克伯格近日公布了其"个人超级智能"愿景,声称将创造一种能够帮助用户"实现目标、创造想要看到的世界、体验...
2025-08-01 0
通信历史连载854-世界第一部折叠屏手机到底是谁-2018-2019年双屏折叠手机的故事:2011年:日本京瓷和美国运营商Sprint合作,推出了侧滑...
2025-08-01 0
今日,iQOO强势登陆ChinaJoy 2025,在上海新国际博览中心N5馆02展台精彩亮相。本次iQOO展台围绕“1好逛、2好晒、3好玩、4好看、5...
2025-08-01 0
2025年7月26日,2025世界人工智能大会暨人工智能全球治理高级别会议发布的《人工智能全球治理行动计划》,以其十三项具体举措和系统性设计为全球人工...
2025-08-01 0
近日,魅族科技用一场"手板风暴"重新定义了旗舰机的发布仪式感。8月即将登场的魅族22,在2025 ChinaJoy展会上以四款不同造型的工程样机提前掀...
2025-08-01 0
郝伟任中科院西安光机所党委书记7月30日,中国科学院西安光机所召开领导班子个别调整宣布会议。西安分院分党组书记、系统单位党委书记詹瑞,西安分院纪检组组...
2025-08-01 0
发表评论