昆仑万维「天工大模型4.0」o1版(Skywork o1)正式启动邀请测试
时间:2024-11-27 15:49:57来源:中国网科技

今天,昆仑万维正式推出具有复杂思考推理能力的系列模型——“天工大模型4.0” o1版(Skywork o1)。

Skywork o1是由昆仑万维集团发布的具有慢思考推理能力的系列模型。这是国内第一款中文逻辑推理能力的o1模型。不同于现有的复现OpenAI o1模型的工作,Skywork o1不仅在模型输出上内生了思考、计划、反思等能力,同时,该开源模型在标准评测集上,对比普通模型推理能力大幅上升,真正让模型拥有了思考和反思带来的推理能力的提升。团队复现o1的技术路线,使得初始推理能力较差的基座模型在基准测试集上成为生态位SOTA。

此次发布的Skywork o1包括三款模型,既有回馈开源社区的开放版本,也有能力更强的专用版本:

Skywork o1 Open:一款基于Llama 3.1 8B的开源模型,该模型在同生态位开源模型中评测指标大幅提升达到SOTA水平,并解锁了许多轻量级模型无法解决的复杂数学任务。该模型的发布也将帮助加速国内开源社区复现o1的进程。

Skywork o1 Lite:该模型具备完整的思考能力,具有更好的中文支持和更快的推理和思考速度。在数学、中文逻辑和推理类问题上表现突出。

Skywork o1 Preview:这款模型是本次完整版的推理模型,搭配自研的线上推理算法,对比Skywork o1 Lite有着更多样和“深度”的思考过程,更完善和更高质量的推理。

其中,我们开源的Skywork o1 Open,在各项数学和代码指标上均有大幅提高,将Llama-3.1-8B的性能拉到同生态位SOTA(超越Qwen-2.5-7B instruct)。同时,8B的Skywork o1 Open也解锁了很多较大量级模型,如GPT 4o,无法完成的数学推理任务(如24点计算)。这也为推理模型在轻量级设备上部署提供了可能性。

同时,我们也将开源两个推理任务的Process Reward Model(PRM):Skywork o1 Open-PRM-1.5B 和Skywork o1 Open-PRM-7B,相比此前开源的Skywork-Reward-Model仅对整个模型回答进行打分,Skywork o1 Open-PRM能给模型回答中的每个步骤进行打分。

对比开源社区现有的PRM,Skywork o1 Open-PRM-1.5B能达到开源社区8B的模型效果,例如RLHFlow的Llama3.1-8B-PRM-Deepseek-Data,OpenR的Math-psa-7B,Skywork o1 Open-PRM-7B能同时在大部分benchamrk上接近/超过10倍量级的Qwen2.5-Math-RM-72B。Skywork o1 Open-PRM也是第一款适配代码类任务的开源PRM。下面表格为以Skywork-o1-Open-8B作为基础模型,使用不同PRM在数学和代码评测集上的评估结果。

除Skywork-o1-Open-PRM外,其他开源PRM均未针对代码类任务进行专门优化,故不进行代码任务的相关对比。

详细技术报告也将在不久后发布。目前模型和相关介绍在Huggingface开源。

强推理以及自我反思的能力是如何练成的?

Skywork o1在逻辑推理任务上性能的大幅提升得益于天工三阶段自研的训练方案:

推理反思能力训练:通过自研的多智能体体系构造高质量的分步思考,反思和验证数据。通过高质量的、多样性的长思考数据对基座模型进行继续预训练和监督微调。

推理能力强化学习:团队研发了最新的适配分步推理强化的Skywork o1 Process Reward Model(PRM)。实验证明Skywork-PRM可有效的捕捉到复杂推理任务中间步骤和思考步骤对最终答案的影响。结合自研分步推理强化算法进一步加强模型推理和思考能力。

推理planning:基于天工自研的Q*线上推理算法配合模型在线思考,并寻找最佳推理路径。这也是全球首次将Q*算法实现和公开。Q*算法落地也大大提升了模型线上推理能力。

亮点功能与实测

Skywork o1模型具有以下能力和亮点功能:

模型思考和规划能力

模型自我反思能力

模型自我验证能力

相较于此前(长文本任务)大模型,无论是常识推理问题、逻辑推理问题、数学推理问题、伦理决策问题、还是“弱智”(类似脑筋急转弯)逻辑陷阱问题等,Skywork o1都处理的游刃有余。整体来说,Skywork o1 Lite和Skywork o1 Preview线上版本在复杂问题分析、思考反思过程、输出答案质量上均有大幅提升。

进阶版的复杂人类思考能力的解锁也将进一步在垂类领域增强大模型的应用,例如:

中英文常见逻辑推理和复杂任务,如数学/代码类任务,科学研究

高质量内容生成,如创意写作,行业报告写作

深度搜索,解锁复杂搜索任务的拆解

2024年以来,昆仑万维天工AI持续进化,陆续发布了“天工2.0”、“天工3.0”、“天工大模型4.0”4o版——Skywork 4o,以及今天正式发布的“天工大模型4.0” o1版(Skywork o1),不仅是我们贯彻“All in AGI 与 AIGC” 战略的重要举措,更是我们构建AI技术栈的重要一步。我们将秉持“实现通用人工智能,让每个人更好地塑造和表达自我”的使命,从模型层、应用层等全方位、多维度来构建公司技术竞争力和生态矩阵。

标签:

最新
  • 昆仑万维「天工大模型4.0」o1版(Skywork o1)正式启动邀请测试

    今天,昆仑万维正式推出具有复杂思考推理能力的系列模型——天工大

  • 强冷空气影响持续!明后天早晨全国多地气温将创今年立秋来新低

    中国天气网讯 今天(11月4日),强冷空气将继续我国,东北、华北、黄

  • 当前焦点!中国信通院公布2024年可信开源最新评估结果

    中新网北京10月17日电 (记者 刘育英)2024 OSCAR开源产业大会16日

  • 甘肃临夏牛羊产业探新“赛道” 当前视点

    在无牛羊不成家的甘肃临夏回族自治州,牛羊养殖是祖辈传承的生产标

  • 人民论坛网评|让文艺之花为人民绽放

    在文艺工作座谈会召开10周年之际,10月16日出版的第20期《求是》杂

  • 汽车玻璃升降失灵怎么办?汽车玻璃膜如何快速去除? 天天速看料

    汽车玻璃升降失灵怎么办?1、如果发现车窗升降功能失效,可以尝试进

  • 世界快看点丨不计免赔险包含在第三责任险里面吗?不计免赔险和第三者责任险有什么不同?

    不计免赔险包含在第三责任险里面吗?不计免赔险是不包含在第三责任险

  • 玉门市供销联社夯实根基谋发展 提升能力惠“三农”_世界速看

    近年来,玉门市供销联社紧紧围绕三农工作大局,以深化供销社综合改

  • 浙江兰溪:李渔风情街开街迎国庆 老街焕发新活力

    中新网金华10月1日电 (钱晨菲 成超 张恒)10月1日,浙江金华兰溪

  • 【天天播资讯】交通运输部:强化重大节假日充电保障能力 提高自驾出行体验

    中新网9月27日电 国新办27日就国庆假期出行服务保障有关情况举行发

  • 每日头条!巧手匠心 筑梦强国——新时代我国技能人才队伍建设成就斐然

    光明日报记者 任欢 杨桐彤近日,第47届世界技能大赛在法国里昂闭

  • 全国专家学者恒山脚下“头脑风暴”共商黄芪高质量发展良策_今日视点

    中新网大同9月1日电 (任丽娜)8月30日—9月1日,以发展道地黄芪产业

  • 中国抗衰老促进会朱怡霖:推动抗衰老领域的研究与应用 环球热点评

    近日,第二届中国化妆品产学研协同创新论坛在上海第28届CBE中国美容

  • Nothing Ear / (a) 无线耳机国行上架:透明外壳设计,售价 699 元起-观天下

    Nothing Ear、Nothing Ear (a) 无线耳机 18 日晚发布,国行版

  • 百日誓师燃斗志 全力以赴战中考——驻马店市第十中学教育集团举行九年级学情调研优秀学生表彰暨中考百日誓师大会_前沿资讯

    春寒渐退,绿芽萌生期望;号角响亮,暖阳点燃梦想。2024年3月15日,驻

  • 世界焦点!​西平县应急管理局开展行政执法能力专题培训

    为贯彻新发展理念、构建新发展格局,推进严格规范公正文明执法,3月14

  • 旅游
    • 1500元/亩!东莞打造高标准农田有补助!正征集意见中

    • 0100556是什么电话?它一直在叫我我不敢接

    • 三驾马车战略引领,江淮1卡油混电新品即将奔腾来袭!

    • 十三省(市、区)公安交管部门联合整治客车交通违法行为