这项研究探究大语言模型从真实文本中推断因果关系的能力,创建了首个真实世界基准数据集ReCAST。研究发现,即使最先进模型在此任务上表现也不佳,最高F1分数仅为0.477。模型尤其难以处理隐含因果关系、区分关键因素与背景信息,以及整合长文本中分散的信息。这揭示了当前语言模型在真实世界因果推理方面的重大局限,为未来研究指明了方向。
Atos 正在重组,法国政府已确认以4.1亿欧元收购其 Eviden 子公司先进计算业务(不含 Vision AI 部分),该业务涵盖 HPC、量子计算及 AI 部门,预计2025年营收约8亿欧元,此举将为 Atos 提供急需流动资金。
文章讨论了 GPU 服务器如何利用并行处理支持 AI 运算,比较了其与传统 CPU 服务器在扩展性、功耗与散热等方面的区别,并指出数据中心须相应升级供电与冷却设施。
IBM 周一宣布收购 AI 数据分析平台 Seek AI,并在纽约启动 Watsonx AI Labs 加速器,以利用自然语言处理技术支持企业数据查询,扩展 AI 解决方案和人才培养。
Bing 视频生成器利用 OpenAI 的 Sora 模型,通过文字提示生成视频。登录微软账户的用户可免费生成10个视频,之后需消耗微软奖励积分。目前仅支持竖屏9:16比例,未来将增加横屏选项。
波士顿大学研究团队开发的DORI基准测试从四个维度评估多模态大语言模型的物体方向理解能力:正面对齐、旋转变换、相对方向和规范方向感知。研究评估了15个最先进模型,发现即使最佳模型在粗粒度任务上的准确率也仅为54.2%,在细粒度方向判断上更低至33.0%,与人类表现相差近30%。结果表明当前模型在精确角度估计、多视角追踪和理解复合旋转方面存在系统性缺陷,反映了它们内部3D空间表示的根本局限,为未来模型设计提供了明确方向。
这篇研究介绍了Oracle AI团队开发的一种针对企业系统的域特定检索硬负样本挖掘框架。该方法通过整合多种嵌入模型、降维处理和独特的语义选择标准,动态识别具有挑战性但上下文无关的文档作为训练样本,显著提升了重排序模型的性能。在云服务领域的测试中,该方法在MRR@3和MRR@10指标上分别提升了15%和19%,并在多个公开领域数据集上展示了广泛适用性,为企业搜索和检索增强生成应用提供了实用解决方案。
Oracle研究团队开发了FS-DAG,这是一种用于视觉丰富文档理解的少样本领域适应图网络模型。与传统大型模型不同,FS-DAG仅需5份示例文档即可适应新文档类型,参数量不到90M,却在信息提取任务中表现卓越。模型采用模块化架构,结合预训练的文本和视觉特征提取器与图神经网络,展现出对OCR错误的极强鲁棒性(性能下降不到1%)。实验表明,FS-DAG在多种文档类型上优于LayoutLMv2等大型模型,同时具有更短的训练和推理时间。目前已被50多家企业采用,每月处理超过100万次API调用,证明了其在实际业务场景中的价值。
Prot2Token是密苏里大学研究团队开发的一种突破性蛋白质建模框架,它通过将各种蛋白质预测任务转化为统一的下一个标记预测问题,解决了传统方法需要为不同任务开发专门模型的限制。这个框架以自回归解码器为核心,配合预训练蛋白质编码器和任务标记引导,实现了从蛋白质序列到结构、功能和相互作用的多样化预测。实验证明其性能媲美甚至超越专门方法,并在结构预测上比AlphaFold2快1000倍。Prot2Token通过多任务学习促进了不同预测任务间的协同效应,为蛋白质研究提供了高效、通用的计算范式。
这项研究提出了一种通过"替身模型"训练视觉编码器并实现零样本嫁接到大型语言模型的创新方法。研究团队分析发现大语言模型内部存在明显的处理阶段转折点,据此构建的替身模型保留早期处理层而压缩后期层。使用替身训练的视觉编码器可直接插入目标大模型而无需额外训练,或作为全面训练的高效起点。实验证明,这种方法不仅能将Llama-70B的训练成本降低约45%,还在部分基准测试中实现了超越全面训练的性能。
这项研究介绍了FastTD3,一种简单却高效的强化学习算法,能显著加速人形机器人的训练过程。由加州大学伯克利分校团队开发,FastTD3通过四个关键优化——并行模拟、大批量更新、分布式评论家网络和精心调整的超参数,在不到3小时内解决了复杂的人形机器人控制任务,并成功实现了从模拟到实体机器人的技能迁移,为机器人学习研究提供了宝贵的开源工具。
密歇根大学研究团队开发的HLIP框架为3D医学影像处理提供了突破性解决方案。通过模拟放射科医生的层次化阅读策略,HLIP能高效处理未经筛选的CT和MRI数据,无需昂贵的人工标注。在两个大规模数据集(包含220K患者的脑部MRI和240K患者的头部CT)上训练后,HLIP在多个公开基准测试中显著超越现有模型,如在Pub-Brain-5上提升32.4%准确率。这一创新不仅降低了计算成本,还为临床AI辅助诊断系统铺平了道路。
希伯来大学研究团队创建了CHIMERA,这是一个从科学文献中自动提取思想重组实例的大规模知识库。研究区分了两种重组类型:概念融合和灵感迁移,并从28,000多个案例中揭示了跨学科创新的模式。研究发现认知科学和生物学是AI领域重要的灵感来源,且不同领域间的灵感流动呈现动态变化。基于这一知识库,团队还开发了能预测新创新方向的模型,经真实研究人员评估证实其有效性。这项工作为理解科学创新提供了新视角,也为研究人员探索跨领域思想融合提供了实用工具。
这项研究提出了HoPE(混合位置编码),一种针对视觉语言模型的新型位置编码技术,专门解决长视频理解的挑战。传统位置编码技术在处理长视频时表现不佳,HoPE通过两个创新解决了这一问题:混合频率分配策略(为空间信息分配高频,时间维度使用零频率)和动态时间缩放机制(根据视频速度灵活调整时间编码)。实验证明,HoPE在长视频理解和检索任务上分别提升了8.35%和22.23%,为AI更准确理解长视频内容开辟了新途径。
东京大学研究团队推出MangaVQA基准和MangaLMM模型,专门用于评估和提升AI对日本漫画的理解能力。MangaVQA由526个高质量手动创建的问答对组成,用于评估AI系统对漫画内容的深入理解;MangaOCR则专注于漫画页内文本识别。基于这两个基准,研究团队从开源多模态模型Qwen2.5-VL微调出MangaLMM,能同时处理文本识别和内容理解任务。实验显示,即使是GPT-4o等顶尖商业模型在处理漫画的独特复杂性时也面临挑战,而专门训练的MangaLMM表现出色。
这项研究由ISTA和谷歌研究院联合开发的"影响力蒸馏"方法,通过利用二阶信息为训练样本分配最优权重,实现了大语言模型训练数据的高效选择。该方法在数学上有坚实理论支持,并创新性地引入"地标"近似技术,仅需计算少量样本的精确影响力,再高效传播到其他样本,大幅降低计算成本。实验证明,该方法在多种模型和任务上均优于或匹配现有技术,同时实现了高达3.5倍的速度提升,为大模型训练开辟了更高效的路径。
来自哈佛大学等顶尖学府的研究团队在这篇论文中挑战了传统观念,认为Token压缩不仅仅是提高AI模型运行效率的工具,更应成为生成式AI模型设计的核心原则。研究表明,精心设计的Token压缩策略可以促进多模态深度整合、减轻AI"幻觉"问题、增强处理长序列输入的能力,并提高训练稳定性。论文详细分析了现有方法的局限性,并提出了算法创新、强化学习指导和硬件协同设计等未来研究方向。
这项来自普渡大学的研究展示了一种名为Sherlock的创新框架,让视觉-语言模型具备自我纠错能力。研究者通过三阶段训练方法(SFT冷启动、轨迹级偏好训练和自我改进),使模型能像侦探一样发现并修正推理错误。仅使用20k标注数据,Sherlock在八项基准测试中超越了使用5-13倍数据量的现有模型,证明自我纠错不仅能提升AI可靠性,还能大幅降低训练成本。
这项研究提出了"下一事件预测"作为培养视频AI时间推理能力的新方法。研究者将视频分为过去和未来部分,让AI预测未来事件,而不仅仅是描述所见。他们创建了V1-33K数据集(包含33,000个视频片段)和FutureBench测试基准,实验证明这种方法显著提升了模型的时间推理能力。研究发现,演绎推理(通过下一事件预测)比归纳推理(视频问答)和溯因推理(先前事件预测)更有效,简单的监督式微调就能取得良好效果,且增加数据量超过5K后效果提升不明显。