最新文章
ARIA:用意图驱动的奖励聚合训练更聪明的语言智能体

ARIA:用意图驱动的奖励聚合训练更聪明的语言智能体

这篇来自复旦大学和字节跳动的研究介绍了ARIA方法,解决了语言智能体在开放式交互环境中的训练难题。传统强化学习在这类任务中面临巨大挑战,因为行动空间呈指数级增长,导致奖励信号极度稀疏。ARIA创新性地将语言行动从高维标记空间映射到低维意图空间,聚合语义相似行动的奖励,有效降低了训练方差。实验表明,ARIA在多种任务中平均提升9.95%的性能,同时显著提高训练稳定性和效率。

十年专利纠纷如何可能颠覆 Uber 业务

十年专利纠纷如何可能颠覆 Uber 业务

Carma Technology 针对 Uber 提起专利侵权诉讼,称其侵犯了涉及拼车系统的五项专利。案情回溯至十年前,凸显专利保护对创新者的重要性,可能对 Uber 及其他公司带来巨大影响。

Automattic 表示将在暂停后恢复对 WordPress 的贡献

Automattic 表示将在暂停后恢复对 WordPress 的贡献

经过暂停战略调整,Automattic 宣布重返 WordPress 开发,包括核心、Gutenberg、Playground 等模块,计划今年推出 6.9 版本,并涉及与 WP Engine 的法律争端。

荷兰企业在应对不断加剧的威胁下,网络韧性落后

荷兰企业在应对不断加剧的威胁下,网络韧性落后

本文指出,荷兰66%的企业网络韧性不足,特别是中小企业频遭网络攻击。在Rick van der Kleij教授看来,传统网络安全模式已失效,亟需转向强调预防、响应、恢复与适应的新模式,并加强人本因素与协作,共同提升防御能力。

使用 Edits 指南:Meta 全新短视频编辑利器,挑战 CapCut

使用 Edits 指南:Meta 全新短视频编辑利器,挑战 CapCut

本文介绍了 Meta 刚发布的 Edits,这是一款短视频编辑工具,旨在与 ByteDance 的 CapCut 竞争。文章简述了 Edits 的核心功能、操作流程及与 CapCut 的异同。

将 ROCs 放在 SOCs 之前 —— Qualys 对公共部门的建议

将 ROCs 放在 SOCs 之前 —— Qualys 对公共部门的建议

Qualys首席执行官Sumedh Thakar提出,将传统主要用于被动响应安全事件的SOC升级为基于风险管理的ROC,通过聚焦关键风险而非海量安全扫描,帮助公共部门更高效、低成本地降低潜在威胁。

全民基本收入:AI时代的商业案例

全民基本收入:AI时代的商业案例

全球经济正处在自动化与 AI 推动的巨大变革关口,大规模就业受冲击,而普遍基本收入(UBI)有望稳定社会、激发创新,促进经济持续健康发展。

经济学家式思维:在经济问题上进行后训练,让大语言模型产生战略性泛化能力

经济学家式思维:在经济问题上进行后训练,让大语言模型产生战略性泛化能力

这项研究展示了如何通过在经济问题上进行后训练,让大语言模型像经济学家一样思考,从而实现战略性泛化能力。研究团队开发了名为Recon的7B参数开源模型,通过在2,100个高质量经济推理问题上进行监督微调和强化学习,不仅提升了模型在经济基准测试上的表现,更重要的是让模型在从未直接训练过的多智能体博弈中展现出合理的战略行为。结果表明,领域对齐的后训练可以作为智能体对齐的可扩展路径,通过结构化推理问题培养出更广泛适用的理性决策能力。

何时行动,何时等待:理解对话系统中用户意图的形成过程

何时行动,何时等待:理解对话系统中用户意图的形成过程

STORM框架是一种创新的对话系统研究方法,通过模拟用户和AI助手之间的信息不对称来解决意图触发性问题。研究发现中等程度的不确定性(40-60%未知信息)在某些情况下能够优于完全透明,挑战了传统的AI设计假设。通过对四种主流语言模型的测试,团队确定了不同模型在处理用户意图形成过程中的独特特点,为任务导向对话系统设计提供了实用指导。这项研究对隐私保护设计和偏见缓解具有重要启示,表明信息的战略性限制可能比信息最大化更有效。

ShapeLLM-Omni:清华大学团队打造的首个原生多模态3D生成与理解大模型

清华大学和盛树实验室的研究团队开发了ShapeLLM-Omni,这是一个突破性的大语言模型,能够同时理解和生成文本、图像及3D内容。该模型通过3D向量量化变分自编码器将复杂的3D网格压缩为离散标记,使大语言模型能够高效处理3D数据。研究团队构建了包含34.6亿标记的3D-Alpaca数据集,涵盖了3D生成、理解和编辑任务。基于Qwen-2.5-vl模型,ShapeLLM-Omni不仅能从文本或图像创建高质量3D模型,还支持通过自然语言编辑3D资产,为游戏开发、虚拟现实和数字孪生等领域开辟了新可能。

大语言模型看图思考:华盛顿大学推出VisualSphinx,一个660K规模的视觉逻辑训练数据集

大语言模型看图思考:华盛顿大学推出VisualSphinx,一个660K规模的视觉逻辑训练数据集

华盛顿大学与西华盛顿大学的研究团队合作开发了VisualSphinx——一个包含66万个合成视觉逻辑谜题的大规模数据集,用于提升视觉语言模型的逻辑推理能力。通过四阶段流程:种子问题收集、规则遗传算法扩展、程序化图像合成和谜题组装,团队以不到1000美元的成本创建了这一资源。实验证明,使用该数据集进行强化学习的模型在逻辑推理任务上的表现显著提升,甚至超越了多款封闭源模型,且这种能力可迁移至其他视觉推理任务。

Cora:使用少量步骤的扩散模型实现对应感知图像编辑,来自西蒙弗雷泽大学的创新

Cora是一项来自西蒙弗雷泽大学的研究,提出了一种利用少步骤扩散模型进行对应感知图像编辑的新方法。它通过三大创新解决了现有编辑技术的局限性:对应感知噪声校正、注意力插值映射和结构对齐。这使Cora能够出色处理非刚性变形、物体替换和添加等复杂编辑任务,同时保持图像身份和结构的完整性。研究显示,Cora不仅在质量上超越其他少步骤编辑方法,还与计算密集的多步骤技术相媲美。

从令牌到行动:状态机推理减轻信息检索中的过度思考

从令牌到行动:状态机推理减轻信息检索中的过度思考

这项来自首尔国立大学的研究提出了状态机推理(SMR)框架,解决了大型语言模型在信息检索中的过度思考问题。研究者将推理过程从冗长的令牌生成转变为离散动作(精炼、重排序、停止),使系统能够高效地在状态间转换。实验结果表明,SMR在BEIR和BRIGHT基准测试中显著提高了检索性能,同时减少了74.4%的计算资源消耗,证明其在不同语言模型和检索器中的通用性。这种结构化方法不仅解决了冗余轨迹和误导性推理问题,还为构建更高效的信息检索系统提供了新思路。

推理健身房:带有可验证奖励的强化学习推理环境

推理健身房:带有可验证奖励的强化学习推理环境

REASONING GYM是GitHub团队开发的一个突破性推理环境库,为强化学习模型提供可验证奖励。与传统固定数据集不同,它能生成无限训练数据并调整难度,涵盖代数、算术、认知、几何等100多个领域的数据生成器。研究显示,即使顶尖AI模型在复杂任务上表现也不佳,而专门针对推理训练的模型明显优于通用模型。更重要的是,在一个领域学习的技能可以意外地迁移到其他领域,这为提升AI推理能力提供了新路径。

2025-06-05

PTC推出Creo 12以加快设计速度、提高生产力和协作能力

PTC今天宣布推出其最新版 Creo(R) 计算机辅助设计 (CAD) 解决方案,旨在帮助制造商在更短的时间内交付最佳设计。

2025-06-05

Qorvo推出高输出功率倍增器QPA3311和QPA3316,加速DOCSIS4.0向更智能高效演进

近日,全球领先的连接和电源解决方案供应商Qorvo宣布推出两款全新混合功率倍增放大器,进一步加强其面向宽带有线网络的DOCSIS 4.0产品阵容。

拼图解密:KU Leuven团队探索视觉拼图的强化学习之旅

拼图解密:KU Leuven团队探索视觉拼图的强化学习之旅

这项来自KU Leuven、中科大和上海Memory Tensor公司的研究探索了如何利用拼图游戏训练多模态大型语言模型的视觉推理能力。研究发现,现有模型在未经训练时表现近似随机猜测,但通过强化学习能达到近乎完美的准确率并泛化到更复杂的拼图配置。有趣的是,模型能否有效学习与是否包含明确推理过程无关,且复杂推理模式是预先存在而非突然出现的。此外,研究证明强化学习在泛化能力上优于监督微调,挑战了传统的模型训练范式。这些发现不仅揭示了AI视觉理解的机制,还为未来多模态模型研发提供了重要参考。

LoHoVLA:一个统一长时序实体任务的视觉-语言-动作模型——复旦大学和上海交通大学联合突破

LoHoVLA:一个统一长时序实体任务的视觉-语言-动作模型——复旦大学和上海交通大学联合突破

这项研究提出了LoHoVLA,一种用于长时序实体任务的统一视觉-语言-动作模型,融合了高层任务规划和低层动作控制功能。与传统方法不同,它利用单一预训练视觉语言模型同时生成语言子任务和机器人动作,并采用分层闭环控制机制增强鲁棒性。研究团队构建了包含20个长时序任务的LoHoSet数据集,实验结果显示LoHoVLA在Ravens模拟器中显著优于现有方法,展现出统一架构在实现可泛化实体智能方面的潜力。

学习率调度神器:北京大学研究团队推出统一预算迭代训练调度框架,适用于任何训练任务

学习率调度神器:北京大学研究团队推出统一预算迭代训练调度框架,适用于任何训练任务

这项研究提出了统一预算感知(UBA)学习率调度器,解决了深度学习训练中的关键问题:如何在有限迭代次数下获得最佳模型性能。北京大学的研究团队通过构建理论框架,推导出一种只需单一超参数φ的学习率调度方法,实现了灵活性与简单性的平衡。实验结果显示,UBA在视觉和语言任务中,跨不同网络架构和训练预算,始终优于现有方法。该研究不仅提供了理论基础,还建立了参数φ与优化难度的关联,为机器学习实践者提供了一个强大且易用的工具。

MagiCodec:突破性音频编码器如何同时提升重建质量与生成能力

MagiCodec:突破性音频编码器如何同时提升重建质量与生成能力

MagiCodec是一种由上海交通大学与字节跳动联合开发的创新音频编解码器,通过高斯噪声注入和多阶段训练策略,成功解决了音频编码领域的关键挑战:如何同时实现高保真重建和优秀的下游生成能力。研究团队通过理论分析证明,噪声注入在频域上相当于对高频成分施加指数衰减正则化,使模型能更好地保留重要的低频语义信息。实验表明,MagiCodec不仅在重建质量上超越现有技术,在文本转语音、语音识别等下游任务中也表现卓越,其生成的标记分布更接近自然语言的齐普夫分布特性,为音频生成模型提供了更理想的基础。