全球经济正处在自动化与 AI 推动的巨大变革关口,大规模就业受冲击,而普遍基本收入(UBI)有望稳定社会、激发创新,促进经济持续健康发展。
这项研究展示了如何通过在经济问题上进行后训练,让大语言模型像经济学家一样思考,从而实现战略性泛化能力。研究团队开发了名为Recon的7B参数开源模型,通过在2,100个高质量经济推理问题上进行监督微调和强化学习,不仅提升了模型在经济基准测试上的表现,更重要的是让模型在从未直接训练过的多智能体博弈中展现出合理的战略行为。结果表明,领域对齐的后训练可以作为智能体对齐的可扩展路径,通过结构化推理问题培养出更广泛适用的理性决策能力。
STORM框架是一种创新的对话系统研究方法,通过模拟用户和AI助手之间的信息不对称来解决意图触发性问题。研究发现中等程度的不确定性(40-60%未知信息)在某些情况下能够优于完全透明,挑战了传统的AI设计假设。通过对四种主流语言模型的测试,团队确定了不同模型在处理用户意图形成过程中的独特特点,为任务导向对话系统设计提供了实用指导。这项研究对隐私保护设计和偏见缓解具有重要启示,表明信息的战略性限制可能比信息最大化更有效。
清华大学和盛树实验室的研究团队开发了ShapeLLM-Omni,这是一个突破性的大语言模型,能够同时理解和生成文本、图像及3D内容。该模型通过3D向量量化变分自编码器将复杂的3D网格压缩为离散标记,使大语言模型能够高效处理3D数据。研究团队构建了包含34.6亿标记的3D-Alpaca数据集,涵盖了3D生成、理解和编辑任务。基于Qwen-2.5-vl模型,ShapeLLM-Omni不仅能从文本或图像创建高质量3D模型,还支持通过自然语言编辑3D资产,为游戏开发、虚拟现实和数字孪生等领域开辟了新可能。
华盛顿大学与西华盛顿大学的研究团队合作开发了VisualSphinx——一个包含66万个合成视觉逻辑谜题的大规模数据集,用于提升视觉语言模型的逻辑推理能力。通过四阶段流程:种子问题收集、规则遗传算法扩展、程序化图像合成和谜题组装,团队以不到1000美元的成本创建了这一资源。实验证明,使用该数据集进行强化学习的模型在逻辑推理任务上的表现显著提升,甚至超越了多款封闭源模型,且这种能力可迁移至其他视觉推理任务。
Cora是一项来自西蒙弗雷泽大学的研究,提出了一种利用少步骤扩散模型进行对应感知图像编辑的新方法。它通过三大创新解决了现有编辑技术的局限性:对应感知噪声校正、注意力插值映射和结构对齐。这使Cora能够出色处理非刚性变形、物体替换和添加等复杂编辑任务,同时保持图像身份和结构的完整性。研究显示,Cora不仅在质量上超越其他少步骤编辑方法,还与计算密集的多步骤技术相媲美。
这项来自首尔国立大学的研究提出了状态机推理(SMR)框架,解决了大型语言模型在信息检索中的过度思考问题。研究者将推理过程从冗长的令牌生成转变为离散动作(精炼、重排序、停止),使系统能够高效地在状态间转换。实验结果表明,SMR在BEIR和BRIGHT基准测试中显著提高了检索性能,同时减少了74.4%的计算资源消耗,证明其在不同语言模型和检索器中的通用性。这种结构化方法不仅解决了冗余轨迹和误导性推理问题,还为构建更高效的信息检索系统提供了新思路。
REASONING GYM是GitHub团队开发的一个突破性推理环境库,为强化学习模型提供可验证奖励。与传统固定数据集不同,它能生成无限训练数据并调整难度,涵盖代数、算术、认知、几何等100多个领域的数据生成器。研究显示,即使顶尖AI模型在复杂任务上表现也不佳,而专门针对推理训练的模型明显优于通用模型。更重要的是,在一个领域学习的技能可以意外地迁移到其他领域,这为提升AI推理能力提供了新路径。
PTC今天宣布推出其最新版 Creo(R) 计算机辅助设计 (CAD) 解决方案,旨在帮助制造商在更短的时间内交付最佳设计。
近日,全球领先的连接和电源解决方案供应商Qorvo宣布推出两款全新混合功率倍增放大器,进一步加强其面向宽带有线网络的DOCSIS 4.0产品阵容。
这项来自KU Leuven、中科大和上海Memory Tensor公司的研究探索了如何利用拼图游戏训练多模态大型语言模型的视觉推理能力。研究发现,现有模型在未经训练时表现近似随机猜测,但通过强化学习能达到近乎完美的准确率并泛化到更复杂的拼图配置。有趣的是,模型能否有效学习与是否包含明确推理过程无关,且复杂推理模式是预先存在而非突然出现的。此外,研究证明强化学习在泛化能力上优于监督微调,挑战了传统的模型训练范式。这些发现不仅揭示了AI视觉理解的机制,还为未来多模态模型研发提供了重要参考。
这项研究提出了LoHoVLA,一种用于长时序实体任务的统一视觉-语言-动作模型,融合了高层任务规划和低层动作控制功能。与传统方法不同,它利用单一预训练视觉语言模型同时生成语言子任务和机器人动作,并采用分层闭环控制机制增强鲁棒性。研究团队构建了包含20个长时序任务的LoHoSet数据集,实验结果显示LoHoVLA在Ravens模拟器中显著优于现有方法,展现出统一架构在实现可泛化实体智能方面的潜力。
这项研究提出了统一预算感知(UBA)学习率调度器,解决了深度学习训练中的关键问题:如何在有限迭代次数下获得最佳模型性能。北京大学的研究团队通过构建理论框架,推导出一种只需单一超参数φ的学习率调度方法,实现了灵活性与简单性的平衡。实验结果显示,UBA在视觉和语言任务中,跨不同网络架构和训练预算,始终优于现有方法。该研究不仅提供了理论基础,还建立了参数φ与优化难度的关联,为机器学习实践者提供了一个强大且易用的工具。
MagiCodec是一种由上海交通大学与字节跳动联合开发的创新音频编解码器,通过高斯噪声注入和多阶段训练策略,成功解决了音频编码领域的关键挑战:如何同时实现高保真重建和优秀的下游生成能力。研究团队通过理论分析证明,噪声注入在频域上相当于对高频成分施加指数衰减正则化,使模型能更好地保留重要的低频语义信息。实验表明,MagiCodec不仅在重建质量上超越现有技术,在文本转语音、语音识别等下游任务中也表现卓越,其生成的标记分布更接近自然语言的齐普夫分布特性,为音频生成模型提供了更理想的基础。
马里兰大学研究团队开发了DyePack,一种检测大型语言模型测试集污染的创新框架。该方法灵感来源于银行染料包,通过在测试数据中植入带随机目标的后门样本,当模型训练时使用了这些数据,会显示出特定行为模式而被标记。DyePack无需访问模型内部,能精确计算误报率,在MMLU-Pro和Big-Bench-Hard上分别实现0.000073%和0.000017%的超低误报率。研究还证明多后门策略优于单后门,并成功将技术扩展到开放式生成任务,为未来基准测试开发提供了强大的完整性保障工具。
TAE Technologies在最新一轮投资中获1.5亿美元,累计融资约18亿美元。公司利用 AI 技术优化融合反应堆设计,目标于 2030 年代商业化发电,谷歌等巨头均参与合作。
澳大利亚国立大学和广湾大学研究团队开发的VAU-R1系统通过强化学习显著提升了视频异常理解能力。该研究不仅创建了第一个专门用于训练和评估视频异常理解的思维链基准数据集VAU-Bench,还提出了一种数据高效的强化微调框架,使模型能更准确地回答问题、定位异常时间段并提供连贯解释。实验结果表明,VAU-R1在多项选择题准确率和时间定位方面比传统方法有显著提升,为安全监控、灾害预警等领域的智能系统带来了新的可能性。
这项研究由香港中文大学团队提出了视频-3D几何大语言模型(VG LLM),一种无需依赖显式3D数据输入,仅通过普通视频就能理解3D世界的创新方法。通过集成3D视觉几何编码器,该模型能从视频序列中提取3D先验信息,显著提升空间推理能力。实验表明,该4B参数模型在多项3D场景理解和空间推理任务上超越了现有技术,甚至在VSI-Bench评估中胜过Gemini-1.5-Pro。
DINO-R1是博世与德州农工大学研究团队开发的创新视觉基础模型,首次将强化学习应用于增强视觉模型的推理能力。该模型通过群组相对查询优化(GRQO)技术,解决了视觉提示检测中高方差问题,实现对多样化视觉示例的有效理解。DINO-R1引入查询级相对奖励和KL散度正则化,提供更密集的监督信号并稳定训练过程。在COCO、LVIS和ODinW等多个数据集上的实验表明,该模型显著优于传统监督微调方法,在开放词汇和封闭集视觉提示场景中均展现出强大的泛化能力。
MoDoMoDo研究提出了一种创新的多领域数据混合框架,用于多模态大语言模型的强化学习。研究团队从布朗大学、Salesforce等机构组成,通过整合五个不同领域的视觉-语言数据集并设计可验证奖励函数,成功开发了预测最优数据混合策略的方法。实验表明,优化后的数据混合比传统均匀混合策略提高了5.24%的跨领域性能,比基线模型总体提升20.74%。这一方法解决了多模态任务的异质性挑战,为多模态AI训练提供了新思路。