金融界2025年8月6日消息,国家知识产权局信息显示,中国电建集团昆明勘测设计研究院有限公司申请一项名为“一种智能车辆的车路协同控制方法及装置”的专利...
2025-08-06 0
IT之家 8 月 6 日消息,小红书 hi lab 研发并开源的首个多模态大模型 dots.vlm1 今日正式发布,借助一个从零训练的 12 亿参数视觉编码器以及基于 Deepseek V3 LLM 构建。
小红书 hi lab 表示,dots.vlm1 在大部分多模态评测集上接近闭源 SoTA 模型的水平,并在文本能力和主流文本模型相当。
NaViT 视觉编码器:没有基于成熟视觉编码器进行微调,完全从零开始训练,原生支持动态分辨率。同时在文本监督上增加纯视觉监督,提升感知能力上限。此外,训练数据上在传统的 Image Caption 数据上还引入大量结构化图片进行原生训练,提升 VLM 模型的感知能力(例如各类 OCR 能力)。
多模态训练数据:在传统思路上,额外引入多种合成数据思路,覆盖多样的图片类型(例如表格 / Chart / 文档 / Graphics 等)及其描述(例如 Alt Text / Dense Caption / Grounding 等);同时,利用多模态大模型来重写图文交错网页数据,显著提升训练数据质量;
通过大规模预训练与精细化后训练调优,dots.vlm1 在视觉感知与推理方面达到了接近 SOTA 的表现,为开源视觉语言模型树立了新的性能上限,同时在纯文本任务中仍保持一定竞争力。
在主要的视觉评测集上,dots.vlm1 的整体表现已接近当前领先模型 Gemini 2.5 Pro 与 Seed-VL1.5 thinking,尤其在 MMMU / MathVision / OCR Reasoning 等多个基准测试中取得了相当竞争力的结果,显示出较强的图文理解与推理能力。
在典型的文本推理任务(如 AIME、GPQA、LiveCodeBench)上,dots.vlm1 的表现大致相当于 DeepSeek-R1-0528,在数学和代码能力上已具备一定的通用性,但在 GPQA 等更多样的推理任务上仍存在差距。
总体来看,dots.vlm1 在视觉多模态能力方面已接近 SOTA 水平,在文本推理方面达到了主流模型的性能。然而,在部分细分任务上仍与最优结果存在一定距离,需要在架构设计与训练数据上进一步优化。
复杂图表推理样例:
STEM 解题样例:
长尾识别解题样例:
视觉推理样例:
IT之家附 dots.vlm1 开源地址:
相关文章
金融界2025年8月6日消息,国家知识产权局信息显示,中国电建集团昆明勘测设计研究院有限公司申请一项名为“一种智能车辆的车路协同控制方法及装置”的专利...
2025-08-06 0
在日常使用苹果手机玩游戏时,许多用户希望获得更加专注和沉浸的游戏体验。为此,苹果提供了“游戏模式”功能,帮助用户在游戏过程中减少外界干扰,提升游戏体验...
2025-08-06 0
自从换上搭载鸿蒙5的华为Pura 80 Pro手机后,发现曾经非常熟悉的哔哩哔哩App,有了不一样的感觉。可以看出,它不是简单照搬安卓或iOS版本的功...
2025-08-06 0
IT之家 8 月 6 日消息,小红书 hi lab 研发并开源的首个多模态大模型 dots.vlm1 今日正式发布,借助一个从零训练的 12 亿参数视...
2025-08-06 0
#头号创作者激励计划#硅谷传奇投资人维诺德·科斯拉近日发出震撼性预测,认为人工智能将导致传统IT服务业"基本消失",这一言论在全球科技界引发强烈关注。...
2025-08-06 0
2025年8月5日,在湖南省永州市道县道滋味农副产品贸易有限公司直播间,大学生在学习农产品文创包装技能。暑假期间,道县道滋味农副产品贸易有限公司推出“...
2025-08-06 0
无需打开直接搜索微信:本司针对手游进行,选择我们的四大理由: 1、软件助手是一款功能更加强大的软件!无需打开直接搜索微信: 2、自...
2025-08-06 0
金融界2025年8月6日消息,国家知识产权局信息显示,日善电脑配件(嘉善)有限公司取得一项名为“撕膜机构”的专利,授权公告号CN223187835U,...
2025-08-06 0
发表评论