阿里巴巴DAMO院联合南洋理工大学等机构,针对AI多模态推理训练中的梯度消失问题,开发了方差感知采样(VAS)策略。该方法通过智能选择具有不同答题结果和推理路径多样性的训练题目,显著提升了强化学习效果。团队还构建了包含160万长链式思考数据的大规模数据集,其开源的MMR1模型在多个数学推理基准测试中取得最佳性能,为AI推理能力提升提供了重要突破。
阿里巴巴研究团队提出VCRL方法,让AI像人类一样从易到难学习数学。该方法通过观察AI模型解题时表现的差异程度来判断题目难度,自动选择最适合当前能力水平的训练材料。实验显示,VCRL将AI数学能力提升75%-85%,在奥林匹克数学竞赛等高难度测试中表现尤为突出,为AI教育训练提供了新思路。
阿里巴巴集团研究团队提出了Tree-GRPO,一种革命性的AI智能体训练方法。该方法通过树状结构让AI探索多种思考路径并进行比较学习,在多跳推理任务中实现了69%的性能提升,同时将训练成本降低至传统方法的四分之一。这项创新为解决AI稀疏监督和高昂训练成本问题提供了新思路。
北京大学等高校联合研究发现,当前广泛使用的AI评判系统存在严重的自相矛盾问题,经常出现评分与直接比较结果不一致的情况。研究团队开发了TrustJudge框架,通过分布感知评分和智能聚合技术,将评判不一致性降低了8-10个百分点,同时提升了准确率,为AI系统的可靠评估提供了重要解决方案。
清华大学与腾讯联合开发CHARM框架,首次实现动漫发型的AI自动生成。该系统将复杂发型转化为控制点序列,采用语言化表示方法,让AI像写文章一样逐步生成发型。基于37000个样本的AnimeHair数据集训练,CHARM在几何精度和视觉效果上全面超越现有方法,数据压缩率达98%以上,为游戏、动画等领域提供高效的角色建模解决方案。
微软研究院发布思维增强预训练技术,通过在AI训练中加入自动生成的思考过程,显著提升学习效率。该方法让AI模型在数学推理任务上正确率大幅提升,数据利用效率提高3倍。技术简单易实现,在多种模型规模上都显示出显著效果,为AI训练开辟新路径。
上海AI实验室推出V-GameGym测试平台,首次全面评估AI模型的游戏开发能力。该平台包含2219个高质量游戏样本,采用代码、视觉、动态三维评估体系。测试70个AI模型发现,即使最优秀的GPT-5也只能成功开发45%的游戏,AI在编程逻辑方面表现良好但视觉设计能力不足,为AI辅助游戏开发指明了改进方向。
Stability AI推出SD3.5-Flash系统,将AI图像生成速度提升18倍,仅需4步即可完成高质量图片生成,并通过量化优化让普通手机也能运行。该技术通过"时间步共享"和"分时间步微调"等创新方法,成功解决了传统AI绘画速度慢、硬件要求高的问题,让AI图像生成技术实现真正的民主化普及。
上海人工智能实验室联合多所高校提出ScaleDiff方法,通过智能识别困难数学问题并大规模生成类似难题来训练AI模型。该方法在多个数学竞赛基准上实现显著性能提升,证明了困难样本对提升AI推理能力的重要价值,为构建更强大的数学推理模型提供了高效可行的技术路径。
这项由KAIST与微软研究院合作完成的研究揭示了AI语言模型中一个被忽视的重要机制。研究团队发现,除了明确的位置编码技术外,因果掩码这个看似只负责维持处理顺序的组件,实际上也在为AI提供位置信息。通过严密的数学推导和实验验证,研究证明因果掩码会让AI产生偏向较近位置的注意力模式,并且会与RoPE位置编码产生相互作用,影响现代大型语言模型的行为。
今天,经过十余年的打磨与试错,这套体系已经成型并在云栖大会上发布了AI原生ERP,这也将引领ERP进入一个,以AI为核心的技术创新与行业价值跨越时代。
中科院微电子研究所团队揭示深度学习中感知优化与质量评估存在意外不对称现象。研究发现评估性能优秀的模型在训练指导中效果有限,对抗性训练具主导作用,传统卷积网络在某些场景仍具优势。这项发现颠覆了"评估性能等同于优化能力"的传统认知,为AI图像处理技术改进提供新方向。
香港科技大学研究团队开发了MOSS-ChatV视频AI系统,通过创新的"过程推理奖励"机制解决了现有视频AI推理过程不一致的问题。该系统不仅能准确预测视频中的未来事件,还能提供清晰的推理解释。研究构建了MOSS-Video数据集,采用动态时间规整算法训练模型,在多个视频理解任务上取得显著性能提升,为视频AI的可解释性发展开辟了新方向。
伯克利大学研究团队通过测试15个AI模型在五种推理策略上的表现,发现AI的"思考方式"直接影响答题效果。大模型可灵活运用各种策略,小模型需精准匹配任务特点。数学题适合步骤式推理,开放问题需要搜索式方法,效率优先场景宜选简洁策略。研究揭示了AI推理能力的规模门槛效应。
清华大学和理想汽车联合开发的ReflectDrive系统,首次为自动驾驶引入"反省机制",让AI司机具备自我纠错能力。通过将驾驶空间离散化和两阶段路径生成,系统能在规划路径后主动检查安全性,发现问题时智能修正。在NAVSIM基准测试中,该系统综合得分达91.1分,接近人类驾驶水平,为自动驾驶安全性和智能化开辟了新路径。
Anthropic发布了面向成本敏感用户的Claude Haiku 4.5大语言模型,定价为每百万输入令牌1美元,输出令牌5美元,比旗舰版Sonnet 4.5便宜三倍。该模型采用混合推理架构,可根据需求调整计算资源,支持多模态输入最多20万令牌。在八项基准测试中,性能仅比Sonnet 4.5低不到10%,但在编程和数学任务上超越了前代Sonnet 4。模型响应速度比Sonnet 4快两倍以上,适用于客服聊天机器人等低延迟应用场景。
英国初创公司Nscale将为微软建设四个AI数据中心,总计部署约20万个GPU,合同价值高达240亿美元。首个数据中心将于明年在葡萄牙开建,配备1.26万个GPU。德州数据中心规模最大,将部署10.4万个GPU,容量从240兆瓦扩展至1.2吉瓦。所有设施将采用英伟达最新Blackwell Ultra显卡。
谷歌宣布计划在印度安得拉邦维沙卡帕特南建立AI和数据中心枢纽,这是其在印度的首个AI专用设施。该项目是2026-2030年五年150亿美元投资计划的一部分,将整合大规模计算能力、可再生能源基础设施和扩展的光纤连接。该设施将与AdaniConneX和印度电信公司Airtel合作开发,预计提供"千兆瓦级计算能力"。项目还包括在印度东海岸建设新的海底电缆登陆站,扩大国际连接。
Eightfold联合创始人推出AI数字孪生初创公司Viven,获得3500万美元种子轮融资。该公司通过为每位员工创建专门的大语言模型数字孪生,让团队成员即使在同事不在线时也能获取关键信息。Viven通过访问员工的内部电子文档创建数字孪生,其他员工可查询获得即时答案。公司采用配对上下文和隐私技术确保信息安全共享。