这项研究探索了预提示工程(pPE)在强化微调(RFT)中的作用,证明不同类型的预提示可以引导语言模型习得不同行为模式。研究者将五种推理时提示策略转化为训练时预提示,发现所有pPE训练的模型都优于仅用推理时提示的基线,其中零示例型pPE意外地取得最高平均性能提升。此外,不同pPE方法引导模型表现出各自独特的行为特征,表明pPE是RFT中一个被低估但强大的训练维度,可用于培养多样化的AI思维模式。
这项研究首次提出了一个统一的量化感知训练(QAT)缩放定律,通过268组实验揭示了模型大小、训练数据量和量化粒度对4位量化误差的影响规律。研究发现量化误差随模型增大而减少,随训练数据增加和量化粒度变粗而增加。通过分解分析,研究确定了FC2层输入的激活量化是主要瓶颈,使用8位精度处理该层可显著提升性能。这些发现为设计更高效的量化策略提供了理论指导,对推动大型语言模型的实际部署具有重要意义。
上海交通大学与GAIR实验室研究团队开发了PC Agent-E,一种高效的计算机操作AI代理训练框架。通过仅使用312个人类操作轨迹并利用Claude 3.7 Sonnet进行数据增强,该模型在WindowsAgentArena-V2基准测试上取得了36.0%的成功率,超越了同样强大的Claude 3.7 Sonnet(35.4%)。研究证明高质量数据比大量数据更重要,PC Agent-E通过改进长期规划能力实现了突破性进展,同时展示了跨平台泛化能力。所有代码、数据和模型已开源,为计算机操作AI代理研究提供了宝贵资源。
这项研究比较了扩散与自回归语言模型在文本嵌入领域的表现差异。研究团队提出,自回归语言模型由于单向注意力机制而难以捕捉全局语境,而扩散语言模型的双向注意力架构天然更适合文本嵌入任务。他们开发的DIFFEMBED模型在长文档检索、推理密集型检索和指令遵循检索等任务上显著优于传统LLM嵌入模型,在长文档检索提升20%,推理密集型检索提升8%。研究还创建了REASONAUG数据集,包含近11,000对逻辑相关样本。实验证明双向注意力是处理长文本和复杂内容的关键因素。
LMGAME-BENCH是一项创新研究,通过六款经典游戏评估大语言模型的游戏能力。研究发现直接让模型玩游戏效果不佳,因此团队设计了感知、记忆和推理支架来解决视觉识别弱、提示敏感和数据污染等问题。测试13款顶级模型显示,o3和o1表现最佳,且不同游戏考验不同能力组合。有趣的是,在某一游戏上训练模型不仅提升该游戏表现,还能增强其在规划和决策任务上的能力,证明游戏环境既是有效的评估工具,也是有价值的训练场景。
清华大学CoAI团队发现大型推理模型的安全性存在三大失败模式:缺乏安全意识、过度思考和推理与回答不一致。研究表明,通过针对性优化提示策略,攻击成功率从77.0%降至7.0%;同时发现简短推理方式较长推理链更易学习且同样有效;混合良性推理数据则有助于平衡安全性与过度拒绝率。
软思维是一种创新方法,让AI能在连续概念空间而非离散语言中思考。通过保留词汇表的完整概率分布而非选择单个词,这种无需训练的技术让大型语言模型能同时考虑多种推理路径。实验表明,软思维在数学和编程任务上提高了准确率(最多2.48%),同时减少了生成长度(最多22.4%)。这一研究打破了AI推理的传统限制,展示了更接近人类抽象思维的推理方式。
这篇研究论文介绍了一种名为ConvSearch-R1的创新方法,它彻底改变了对话式搜索中的查询重构方式。由复旦大学等机构研发的这一技术,通过强化学习与推理能力相结合,完全摆脱了对人工标注或大型语言模型的依赖。研究采用两阶段框架:自驱动策略预热解决冷启动问题,检索引导的强化学习则通过精心设计的奖励机制优化查询重写。实验表明,即使使用较小的3B参数模型,ConvSearch-R1也能在TopiOCQA数据集上实现超过10%的性能提升,展示了显著的技术优势和资源效率。
西湖大学和浙江大学研究团队提出PiFlow,一种原理驱动的科学发现框架,通过多智能体协作解决现有方法中的无方向假设和证据脱节问题。PiFlow将科学发现视为结构化的不确定性降低问题,使用最小-最大优化策略平衡探索与利用。实验表明,PiFlow在纳米材料、生物分子和超导体发现中显著提升了探索效率(AUC提高73.55%)和解决方案质量(提高94.06%)。作为即插即用模块,PiFlow为高效自动化科学发现建立了新范式,加速了AI驱动研究进程。
MMaDA是由普林斯顿大学和北京大学研究团队开发的革命性多模态AI模型,它通过统一的扩散架构、混合长思考链训练和创新的UniGRPO强化学习算法,成功实现了文本推理、多模态理解和图像生成三大核心能力的高效整合。实验表明,这个8B参数的模型在多项任务上超越了专业单模态模型,展现了真正的多模态AI潜力,为未来通用人工智能发展提供了新方向。
清华大学与重庆大学研究团队提出Vid2World方法,成功将预训练视频扩散模型转变为交互式世界模型。该方法通过视频扩散因果化和因果动作引导两大创新,使模型能够进行自回归生成并响应动作条件。在机器人操作和游戏模拟领域的实验显示,Vid2World明显优于现有方法,为机器人控制、游戏AI等领域提供了高保真度的预测能力,展示了视频扩散模型作为交互式世界模型的巨大潜力。
清华大学深圳国际研究生院与阿里巴巴AMAP团队合作开发了UniVG-R1,这是一种基于推理引导的通用视觉定位模型。研究者通过构建高质量思维链数据集和应用强化学习技术,显著增强了模型处理多图像复杂指令的能力。实验表明,UniVG-R1在MIG-Bench上比现有技术提升9.1%,并在四个零样本测试基准上平均提高23.4%的性能,展现出卓越的推理能力和泛化性。
清华大学和上海人工智能实验室联合开发的AutoMat是一个突破性工具,能自动将电子显微镜图像转换为精确的晶体结构模型并预测材料性质。系统整合了模式自适应降噪、物理引导模板匹配、对称感知结构重建和机器学习性质预测四大模块,由大语言模型代理协调运行。在自创的STEM2Mat-Bench基准测试中,AutoMat远超现有多模态大语言模型,为桥接显微镜成像与原子模拟提供了自动化解决方案,显著加速了材料科学研究流程。
南洋理工大学与SenseTime Research的研究团队提出了ProxyV,一种创新算法,解决大型多模态模型处理视觉信息时的计算冗余问题。与传统方法不同,ProxyV不减少视觉标记数量,而是引入少量"代理视觉标记"替代原始标记参与繁重计算,通过轻量级模块引导原始标记更新。实验表明,ProxyV可在保持甚至提升性能的同时,将计算量和时间减少30%-46%。该方法还提供了非空间变体,可与其他优化方法结合使用,展现了平衡效率与精度的新思路。
应用生命周期管理(ALM,Application Lifecycle Management)是 IT 基础设施中的一个关键组成部分,可协调和优化软件和产品的整个生命周期。从最初的概念到开发、维护和进一步发展:ALM 可确保所有流程实现无缝连接和优化控制。
AI作为推动生产力提升和差异化竞争的重要引擎,已成为不可逆的趋势,客户普遍认可其长期价值,在AI这条赛道上要不断强化本地生态和应用实践。
这篇论文介绍了3DTown,一种从单一俯视图生成3D城镇场景的创新方法。研究团队结合区域化生成和空间感知3D修复技术,无需额外训练即可创建几何一致、布局协调的3D场景。通过将场景分解为重叠区域并使用预训练生成器处理每个区域,该方法显著优于现有技术,在几何质量、空间连贯性和纹理保真度方面表现突出,为游戏开发、虚拟现实和城市规划等领域提供了实用解决方案。
西安交通大学等机构研究团队提出的"基于先验的深度思考"(DP)框架,通过充分利用知识图谱中的结构信息和约束条件,显著提升了大语言模型的推理可靠性。该框架包含知识蒸馏、规划、实例化和内省四个组件,通过渐进式知识蒸馏策略和推理内省机制,使模型能生成更忠实和可靠的回答。在三个基准数据集上的实验表明,DP不仅提高了推理准确性,特别是在ComplexWebQuestions数据集上的Hit@1提升了13%,还大大减少了模型交互次数,展现出极高的实用性。
这项研究介绍了WEB-SHEPHERD,这是首个专为评估网络导航轨迹设计的过程奖励模型。延世大学和卡内基梅隆大学的研究团队创建了包含40K步级别注释的WEBPRM COLLECTION数据集和WEBREWARDBENCH评估基准。实验表明,WEB-SHEPHERD在评估基准上比GPT-4o高出约30个百分点,并且在WebArena-lite上使用时,性能提升了10.9个百分点,同时成本降低了10倍。这一创新模型通过结构化清单将高级用户指令分解为可解释的子目标,为构建更可靠、更经济的网络代理奠定了基础。
AROS 是一款自由、开源的 AmigaOS 重现操作系统,现能以 USB 启动方式在 PC 上运行。它借助 Linux 系统与 QEMU 虚拟化技术,实现了经典 Amiga 环境的体验。