您的位置: 首页 > 新闻动态 > 金年会

蚂蚁开源轻量级推理模型Ring-lite多项Benchmark达到S金年会- 金年会体育- 官方网站OTA

发布日期:2025-06-26 01:52:04 浏览次数:

  金年会,金年会官网,金年会平台,金年会登录,金年会网址,金年会网站,金年会官方网站,金年会体育,金年会数字站,金年会app,金年会电子娱乐,金年会体育赛事,今年会体育,金年会最新网址入口,金年会靠谱吗

蚂蚁开源轻量级推理模型Ring-lite多项Benchmark达到S金年会- 金年会体育- 金年会官方网站OTA

  首创 C3PO 强化学习训练方法,直击RL训练中回复长度波动导致的优化难题。相比传统方法,显著改善了在RL训练中由于生成回复长度的大幅波动带来的优化不稳定和吞吐波动问题。探讨了Long-CoT SFT与RL的黄金训练比重。从token efficiency角度提出基于entropy loss来平衡训练效果和样本效率的方案,token效率较纯RL和纯SFT大大提升直面多领域数据联合训练难题!系统验证混合训练与分阶段训练的优劣边界,在数学+代码+科学三重领域实现协同增益。

  如下图所示,当response-length出现下降时(图a),Policy的梯度范数(GradNorm)开始出现上涨趋势(图b),带来了优化的不稳定,并潜在导致reward的下跌(图c)。 同时在response-length下降时,整个系统的吞吐也呈现下降趋势(图d)。 C3PO由于固定了token-level的训练budget,整体表现更稳定。进一步结合基于熵(entropy loss)来选择Long-CoT SFT之后用来做RL训练的起点模型,解决了reward突发的大幅下跌问题。

  为激活基础模型的推理能力,他们构建了具备长链思维(Long-CoT)的高质量数据集。通过整合开源题库与LLM生成内容,采用”自动生成-专家标注-拒绝采样”的迭代优化流程,并经过严格清洗(去除重复/混杂语言等噪声),最终形成以数学(64.5%)、编程(25.5%)和科学(9.2%,含Ling team自研的科学数据合成方法“SHARP”生成的高难度样本)三大领域为主体的多学科推理数据集,为后续强化学习训练提供了良好基础。