受AI推动用电需求激增,大科技公司纷纷投资核裂变初创企业,通过小型模块化反应堆及创新设计保障数据中心全天候稳定供电。
近年来,视频内容创作与消费显著增长,而协调视听元素对于打造优质内容至关重要。罗切斯特大学的Chao Huang及合作者开发了视觉引导的声音高亮(visually-guided acoustic highlighting)技术,解决了视觉与声音不协调的常见问题。研究团队洞察到电影中的精心制作音频可作为"免费监督信号",创建了THE MUDDY MIX DATASET数据集,并设计了基于Transformer的VisAH模型,在所有评估指标上显著超越基线方法,实现了更加和谐的视听体验。
这篇研究首次系统探索了验证粒度对大型语言模型测试时扩展的影响。研究团队通过提出可变粒度搜索(VG-Search)算法,挑战了传统的固定验证频率范式。实验表明,根据任务难度和计算预算动态调整验证粒度,可以在减少超过52%计算量的同时,将准确率提高3.6%。这一发现为优化大模型的推理效率提供了全新思路,特别适用于计算资源受限的场景。
这项研究开发了LITMUSVALUES框架,通过道德困境测试揭示AI模型的价值观优先排序,并证明这些排序能预测风险行为。研究发现所有旗舰模型都高度重视隐私,但在关怀等其他价值观上存在分歧;同时发现诚实、尊重和自由能降低多种风险,而创造力和关怀可能增加某些风险。该框架不仅能识别已知风险,还能预测未观察到的潜在风险,为AI安全提供了基于价值观的全新评估方法。
意大利理工学院与英国阿伯丁大学联合研究团队发布了一项突破性研究,提出通过合成数据训练视觉语言模型实现机器人的视觉视角采纳能力。研究团队创建了一个包含RGB图像、语言描述和精确空间变换矩阵的合成数据集,使机器人能够理解物体在不同视角下的空间关系。这一基础工作为实现能在人机交互中理解空间关系的具身AI系统铺平了道路,有望显著提升未来机器人与人类协作的自然度和直观性。
这篇研究揭示了检索增强生成(RAG)系统中的"干扰效应"问题:当检索到的段落虽与查询相关但不包含正确答案时,会误导语言模型生成错误回答。研究团队提出了量化段落干扰效应的方法,并发现这种效应在不同模型间具有高相关性。他们开发了多种获取干扰段落的方法,包括标准检索、答案偏斜检索和基于生成的方法。实验表明,利用这些干扰段落进行微调可显著提高模型抵抗干扰的能力,在多个测试集上准确率提升高达7.5%。
本文探讨了AI从单个模型向多专长代理协作转变,通过健壮架构应对通信、状态同步与容错挑战,以构建弹性企业AI系统。
这项研究介绍了神经符号扩散模型(NESYDMs),一种创新融合神经网络感知与符号推理的框架,克服了传统神经符号系统中概念独立性假设的局限。通过离散扩散技术建模概念间依赖关系,该模型在高维视觉路径规划和自动驾驶等任务上展现出卓越性能,同时维持较好的校准性,能够意识到"推理捷径"问题。这一突破为构建既可靠又可解释的AI系统提供了新方向,特别适用于安全关键的应用场景。
腾讯和浙江大学研究团队提出了"认知专家增强"(RICE)方法,无需额外训练即可提升MoE推理模型性能。通过归一化点态互信息识别关键认知专家后,仅增强两个专家的权重就能显著提高模型在数学和科学推理任务上的准确率,同时减少计算量。这种轻量级方法展现出良好的跨领域泛化能力,为高效AI推理开辟新路径。
这篇研究介绍了一种新型"逆效能驱动多模态融合"(IEMF)技术,灵感来自大脑处理多感官信息的方式。当单一感觉信号较弱时,大脑会增强多感官整合效果;信号强时则降低融合依赖。中国科学院研究团队将这一机制应用于AI系统,使其能够动态调整多模态信息融合强度,不仅提高了模型在视听分类、持续学习和问答任务上的性能,还将计算成本最高降低了50%。这种方法在不同网络架构中都表现出色,为构建更高效、更接近人类感知方式的人工智能系统开辟了新途径。
这项由爱丁堡大学和华为研究团队完成的研究探究了大语言模型在多跳问题答案任务中如何处理上下文排列。研究发现:编码器-解码器模型(如Flan-T5)在未微调时表现优于更大规模的因果解码器模型;改变黄金文档顺序揭示了前向排列(符合推理链)带来最佳性能;为因果解码器模型添加双向注意力机制显著提升性能并增强对文档排序变化的鲁棒性;文档间距离越大性能越差;模型在回答正确时往往对关键文档分配更高注意力权重。这些发现为优化检索增强生成系统提供了重要指导。
KERL是一个创新的食谱推荐系统,由伦斯勒理工学院研究者开发,将食品知识图谱与大语言模型相结合,提供个性化推荐并生成食谱步骤和营养信息。系统包含三个模块:KERL-Recom(负责推荐菜品)、KERL-Recipe(生成烹饪步骤)和KERL-Nutri(提供营养分析)。研究团队创建了全新基准数据集评估系统性能,实验表明KERL在所有任务上均显著优于现有方法,为用户提供了考虑个人喜好、饮食限制和健康指南的完整食谱推荐解决方案。
Meta公司研究团队开发的Dynadiff技术实现了单阶段从脑部fMRI信号直接解码图像的突破,解决了现有方法复杂多阶段和忽略时间维度的问题。通过创新的"大脑模块"设计和扩散模型整合,Dynadiff在高级语义图像重建方面超越现有技术,同时能精确追踪大脑中图像表征的时间演变。研究表明,大脑中的神经模式随时间持续变化,允许连续图像的同时解码,为时间分辨率大脑解码开辟了新方向,但仍面临数据需求高和跨受试者泛化能力有限等挑战。
这篇研究论文展示了以物体为中心的表征(OCR)如何提升机器人操作的泛化能力。法国中央工学院的研究团队对比了全局、密集和基于OCR的视觉模型在模拟和真实环境中的表现,发现OCR方法(特别是VIDEOSAUR*)在各种视觉干扰条件下表现最佳。研究通过在机器人数据上预训练和加入时间动态信息,使OCR模型能像人类一样感知物体,而非混杂像素,为未来机器人视觉系统设计提供了新方向。
2025年5月20日,上海交通大学与上海人工智能实验室合作发布了"视觉智能体强化微调"(Visual-ARFT)研究,使AI模型能像人类一样主动使用搜索引擎和编写代码处理图像。这项突破性技术通过强化学习让大型视觉-语言模型获得工具使用能力,在研究团队设计的多模态智能体工具基准(MAT)上表现优异,甚至超越了GPT-4o。经过训练的模型能够分析问题、分解任务、调用工具并解决复杂视觉问题,为构建能真正"用图像思考"的AI智能体开辟了新路径。
香港城市大学、OPPO研究院与香港理工大学研究团队提出了VisualQuality-R1,一种通过排序强化学习训练的推理增强型图像质量评估模型。该模型将Thurstone排序模型无缝集成到组相对策略优化中,使用连续保真度奖励取代传统二元反馈,生成上下文丰富的质量描述。实验表明,它在多种失真场景中始终优于现有方法,无需感知尺度重校准即可支持多数据集训练,为图像处理领域提供了更可靠的质量评估工具。
这项研究提出了AnytimeReasoner框架,通过从先验分布采样思考预算,优化大语言模型在任意计算资源下的推理能力。研究团队开发的预算相对策略优化(BRPO)技术引入可验证的密集奖励,提升强化学习效率。实验表明,该方法在各种数学推理任务上显著优于现有技术,为资源受限环境下的AI服务提供了更高效的解决方案。
文章指出在企业中,AI 试点屡遭挫折,OpenAI因此转向消费者市场,暗示AI将通过用户扩散进入企业,最终由IT部门解决相关问题。