最新文章
基于放射影像的临床诊断中,AI模型尚未达到实际应用水平

基于放射影像的临床诊断中,AI模型尚未达到实际应用水平

新研究通过 DeepTumorVQA 基准测试表明,尽管 AI 在基本识别和测量任务上有一定表现,但在复杂医学推理上仍远落后于临床要求,难以取代医生的诊断判断。

NOVER:语言模型的无验证器强化学习激励训练

NOVER:语言模型的无验证器强化学习激励训练

NOVER是一种创新的无验证器强化学习框架,解决了传统激励训练依赖外部验证器的限制。由伦敦国王学院研究团队开发,它通过计算"推理困惑度"作为奖励代理,使语言模型能在任何文本任务中自主发展推理能力。实验表明,NOVER在一般推理、创意写作、社会智能和多语言能力等多种任务上均优于基线方法,甚至使3B模型接近从671B模型蒸馏版本的性能。此外,其灵活性还支持"反向激励训练"等创新应用,为语言模型训练开辟了新方向。

当心安全漏洞!韩国中央大学研究团队揭示大语言模型在遵守安全政策时面临的严峻挑战

当心安全漏洞!韩国中央大学研究团队揭示大语言模型在遵守安全政策时面临的严峻挑战

韩国中央大学研究团队开发了名为CoPriva的基准测试,评估大语言模型遵守上下文安全策略的能力。研究发现,虽然多数模型能成功拒绝直接违反安全政策的查询,但在面对间接攻击时存在严重漏洞,泄露率平均增加40%以上。即使是推理能力强的模型也未显示出明显优势,且高忠实度的回答往往伴随更多信息泄露。研究团队评估了10种先进模型,发现政策存在与否对防止泄露影响有限,而修订功能仅能部分提升合规性。这揭示了当前AI安全对齐的重大缺陷,强调了开发更强健安全机制的紧迫性。

不是所有模型都适合专家卸载:揭秘混合专家模型的局部路由一致性

不是所有模型都适合专家卸载:揭秘混合专家模型的局部路由一致性

这项研究分析了混合专家模型(MoE)的"局部路由一致性"特性,即连续词元激活相似专家的程度,这对内存受限设备上的模型部署至关重要。研究者提出了两种测量指标:段路由最佳性能(SRP)和段缓存最佳命中率(SCH),分析了20个不同MoE模型。结果表明,在每层都使用MoE且不含共享专家的模型局部路由一致性最高,领域专业化的专家比词汇专业化的专家对一致性贡献更大。研究还发现,缓存大小为激活专家数量2倍时能取得最佳平衡,为MoE模型设计和部署提供了重要指导。

思维增强型策略优化:搭建外部指导与内部能力之间的桥梁 - 清华大学研究团队开创强化学习新范式

思维增强型策略优化:搭建外部指导与内部能力之间的桥梁 - 清华大学研究团队开创强化学习新范式

清华大学研究团队开发的"思维增强型策略优化"(TAPO)通过将外部高级思维模式整合到强化学习中,显著提升了大语言模型的推理能力。这种方法从仅500个样本中抽象出思维模板,在AIME、AMC和Minerva Math等基准测试中分别比传统方法提高了99%、41%和17%的性能,同时增强了模型的可解释性、稳定性和泛化能力,为AI推理研究开辟了新方向。

Trinity-RFT:阿里巴巴开源的通用强化微调框架,让大语言模型拥有"经验学习"能力

Trinity-RFT:阿里巴巴开源的通用强化微调框架,让大语言模型拥有"经验学习"能力

Trinity-RFT是阿里巴巴团队开发的开源框架,专为大语言模型的强化微调设计。它采用三位一体结构,包含RFT核心(探索者、训练者和缓冲区)、智能体-环境交互和数据流水线三大核心组件。框架支持同步/异步、在线/离线和策略内/外等多种训练模式,能优雅处理复杂的现实场景如延迟反馈和环境失败。Trinity-RFT还提供了丰富的数据处理功能和人机协作界面,并通过Trinity-Studio实现无代码操作。

QwenLong-L1:阿里巴巴用强化学习打造的长文本推理模型,超越OpenAI-o3-mini

QwenLong-L1:阿里巴巴用强化学习打造的长文本推理模型,超越OpenAI-o3-mini

阿里巴巴Qwen-Doc团队推出的QwenLong-L1框架通过强化学习解决了大型语言模型长文本推理的关键挑战。该框架采用渐进式上下文扩展策略,包含热身监督微调、课程引导分阶段强化学习和难度感知回顾采样三大核心组件。实验表明,QwenLong-L1-32B在七项长文本文档问答基准测试上平均提升5.1个百分点,超越OpenAI-o3-mini等旗舰模型,达到与Claude-3.7-Sonnet-Thinking相当的性能水平,为发展具备强大上下文理解和推理能力的实用长文本语言模型开辟了新路径。

地瓜机器人完成1亿美元A轮融资,加速构建具身智能生态版图

地瓜机器人率先构建从芯片、算法到软件的全栈产品体系,形成 5~500TOPS完整产品布局。

语音无需语音:Menlo Research团队为低资源语言开发的创新语音指令训练方法

语音无需语音:Menlo Research团队为低资源语言开发的创新语音指令训练方法

这篇研究论文介绍了"Speechless",一种创新方法,可以在不使用实际语音数据的情况下训练语音指令模型,特别适用于越南语等低资源语言。研究团队通过将文本指令转换为语义表示,绕过了对高质量文本转语音(TTS)系统的依赖。该方法分三个阶段:首先训练量化器将语音转为语义标记;然后训练Speechless模型将文本转为这些标记;最后用生成的合成数据微调大型语言模型。实验表明,该方法在越南语ASR任务中表现出色,为低资源语言的语音助手开发提供了经济高效的解决方案。

变革性进化:Transformer Copilot——用学习错误日志提升大语言模型的微调质量

变革性进化:Transformer Copilot——用学习错误日志提升大语言模型的微调质量

《Transformer Copilot》论文提出了一种革命性的大语言模型微调框架,通过系统记录和利用模型训练过程中的"错误日志"来提升推理性能。研究团队受人类学习者记录和反思错误的启发,设计了一个"副驾驶"模型来辅助原始"驾驶员"模型,通过学习错误模式并在推理时校正输出。这一方法在12个基准测试上使模型性能提升高达34.5%,同时保持计算开销最小,展现了强大的可扩展性和可迁移性,为大语言模型的优化提供了全新思路。

RIPT-VLA:用简单奖励让机器人更聪明!德克萨斯大学Austin分校开创视觉-语言-动作模型的互动式后训练新范式

RIPT-VLA:用简单奖励让机器人更聪明!德克萨斯大学Austin分校开创视觉-语言-动作模型的互动式后训练新范式

德克萨斯大学Austin分校的研究团队提出了RIPT-VLA,一种创新的视觉-语言-动作模型后训练范式。该方法通过让AI模型与环境互动并仅接收简单的成功/失败反馈来学习,无需复杂的奖励函数或价值模型。实验证明,RIPT-VLA能显著提升现有模型性能,在轻量级QueST模型上平均提升21.2%,将大型OpenVLA-OFT模型推至97.5%的前所未有成功率。最令人惊叹的是,仅用一个示范样本,它就能将几乎不可用的模型在15次迭代内从4%提升至97%的成功率,展现出卓越的数据效率和适应能力。

时间洞察:北京大学和华为诺亚方舟实验室联合打造真实场景下大语言模型时间推理的多层级基准

时间洞察:北京大学和华为诺亚方舟实验室联合打造真实场景下大语言模型时间推理的多层级基准

北京大学与华为诺亚方舟实验室研究团队共同开发了TIME基准,这是首个专为评估大语言模型在真实世界场景中的时间推理能力而设计的多层级基准。该研究提出了三个层级的时间推理框架,包含11个细粒度任务,并构建了涵盖38,522个问答对的数据集,针对知识密集型信息、快速变化的事件动态和社交互动中的复杂时间依赖性三大现实挑战。实验结果表明,即使是先进模型在构建时间线和理解复杂时间关系方面仍面临显著挑战,而测试时扩展技术可明显提升时间逻辑推理能力。

正交残差更新:为深度网络提供稳定高效的更新机制

正交残差更新:为深度网络提供稳定高效的更新机制

这篇研究论文提出了一种称为"正交残差更新"的新方法,解决了深度神经网络中标准残差连接的局限性。研究人员发现,在传统残差连接中,模块输出与输入流直接相加可能导致冗余特征学习。他们的创新方法将模块输出分解为平行和正交两个组件,仅保留正交部分进行更新,促使网络学习更丰富的特征表示。在ResNetV2和Vision Transformer等架构上的实验证明,这种简单修改显著提高了模型准确率和训练稳定性,在ImageNet-1k数据集上使ViT-B模型的表现提升了4.3个百分点。

顽固的智能:KAIST研究团队揭示大型推理模型如何任性"修改"用户指令

顽固的智能:KAIST研究团队揭示大型推理模型如何任性"修改"用户指令

韩国科学技术院(KAIST)的研究团队发现了大型语言模型中一个令人担忧的现象:"推理刚性"。这种现象表现为即使是最先进的AI模型,如GPT-4o或Qwen3,也会在解决问题时固执地坚持熟悉的推理模式,甚至会"修改"用户明确给出的条件。研究人员创建了ReasoningTrap诊断数据集,揭示这种行为可分为三类:解释过载、输入不信任和部分指令关注。令人惊讶的是,专门为复杂推理训练的模型比基础模型表现出更强的"固执"倾向,这提醒我们在追求AI推理能力的同时,不应忽视其遵循指令的灵活性。

旋转位置编码之舞:比尔肯特大学研究团队开创无需训练的视频动作迁移新技术

旋转位置编码之舞:比尔肯特大学研究团队开创无需训练的视频动作迁移新技术

比尔肯特大学研究团队提出RoPECraft,一种无需训练的视频动作迁移方法,通过巧妙操作扩散变换器中的旋转位置编码实现。该方法首先从参考视频提取光流信息,用于扭曲RoPE张量;再通过流匹配优化和相位约束正则化,确保生成视频精确跟随参考动作,同时保持视觉质量。与需要大量计算资源的现有方法相比,RoPECraft不需要模型再训练,大幅降低了计算成本,同时在动作保真度和视频质量上超越了最新技术,为AI视频创作提供了高效可行的动作控制解决方案。

修复"伤害"模型表现的数据:级联LLM技术重标注负面样本,提升信息检索的稳健性

修复"伤害"模型表现的数据:级联LLM技术重标注负面样本,提升信息检索的稳健性

这项来自加拿大滑铁卢大学的研究挑战了"更多训练数据总是更好"的观念,发现某些数据集反而会损害信息检索模型性能。研究者提出了RLHN方法,使用级联LLM技术识别并重标注训练数据中的"假负样本"。实验表明,这种方法显著提升了检索和重排模型在BEIR和AIR-BENCH基准测试上的性能,尤其在处理未见过的领域时效果更佳。人类验证结果证实了该方法的可靠性,为构建更准确、鲁棒的信息检索系统提供了新思路。

WebAgent-R1:通过端到端多回合强化学习训练网页智能体

WebAgent-R1:通过端到端多回合强化学习训练网页智能体

这项研究介绍了WebAgent-R1,一种用于训练网页智能体的端到端多回合强化学习框架。不同于传统方法,它直接通过在线交互学习,仅依靠二元任务成功奖励信号指导。实验表明,该方法显著提升了Qwen-2.5-3B和Llama-3.1-8B模型的网页任务成功率,超越了现有最先进技术。研究还揭示了行为克隆的重要性、思考型提示策略的有效性,以及通过增加交互次数来实现测试时性能扩展的新策略。

Think-RM:用长程思考推理提升生成式奖励模型的全新思路——来自乔治亚理工和亚马逊的联合研究

Think-RM:用长程思考推理提升生成式奖励模型的全新思路——来自乔治亚理工和亚马逊的联合研究

Think-RM是一项创新研究,通过使奖励模型具备"长程思考"能力来提升AI系统对人类偏好的理解。传统的奖励模型要么仅提供分数(BT RM),要么依赖浅层思考(GenRM),而Think-RM则模拟人类深度分析问题的过程,支持自我反思、假设推理和发散思维。实验表明,这种方法在复杂推理任务上显著优于现有方法,在RM-Bench上提升8%。结合创新的配对式RLHF流程,Think-RM不仅拓展了奖励模型设计空间,还为AI系统与人类期望的更精准对齐提供了新范式。

在欧洲之门马德里,我们再次见证了SAP激活企业增长的“飞轮”
2025-05-28

在欧洲之门马德里,我们再次见证了SAP激活企业增长的“飞轮”

SAP全球CEO柯睿安(Christian Klein)在马德里蓝宝石大会拿出了 “飞轮效应”理论,讲述起企业如何通过AI、数据和应用协同驱动,释放持续增长动能。

SAKURA:探索大型音频语言模型如何"听懂"并"思考"——首个评估音频多跳推理能力的基准测试

SAKURA:探索大型音频语言模型如何"听懂"并"思考"——首个评估音频多跳推理能力的基准测试

台湾国立大学研究团队开发了SAKURA,首个专门评估大型音频语言模型多跳推理能力的基准测试。研究发现,即使最先进的模型也面临两大挑战:一是在识别某些音频属性(如情绪)时准确率不高;二是即使能正确识别音频信息,也难以基于这些信息进行多步推理。对比实验显示,当同样的信息以文本形式提供时,模型推理能力显著提升,表明当前模型未能有效整合音频表征进入推理过程,这为未来开发真正能"听懂并思考"的AI系统提供了重要方向。