MASKSEARCH是阿里巴巴集团同义实验室开发的新型预训练框架,通过创新的"检索增强掩码预测"任务,训练大型语言模型像人类一样主动使用搜索工具获取信息。这项框架包含两个阶段:首先在掩码预测任务上预训练,然后在下游任务上微调,大幅提升模型在开放域问答中的表现。研究采用监督微调和强化学习两种方法,结合多代理系统和课程学习策略,使AI能够自主分解问题、使用搜索工具并基于搜索结果进行推理。
SmolVLA是由Hugging Face、巴黎索邦大学等机构联合开发的小型视觉-语言-动作模型,专为低成本机器人设计。与现有模型相比,它仅有4.5亿参数(小10倍),却能达到相当性能。SmolVLA采用精巧架构设计,可在单GPU训练、CPU部署,并使用社区收集的数据集训练。研究还引入异步推理策略,提高了机器人的响应速度和适应性。实验证明,它在模拟和真实环境中的表现均超越许多资源密集型模型,为机器人技术的普及开辟了新途径。
AREAL是一个由清华大学和蚂蚁研究院开发的全新异步强化学习系统,专为提升大语言模型的推理能力而设计。与传统同步系统不同,AREAL完全解耦了生成和训练过程,推理工作器持续生成新输出,训练工作器则在收集到足够数据时更新模型。通过创新的过时性感知训练和解耦PPO目标函数,AREAL成功解决了异步训练中的数据过时和策略不一致问题。实验表明,AREAL在数学和代码推理任务上实现了高达2.57倍的训练加速,同时保持或提高了模型性能。
EarthMind是一个创新的视觉-语言框架,专为解决地球观测领域的多尺度和多传感器理解挑战而设计。由多所国际知名大学联合开发的这一系统引入了两项关键技术:空间注意力提示(SAP)机制重新分配大型语言模型内部的注意力,增强像素级理解;跨模态融合机制则将异构模态如光学和雷达数据对齐并智能融合。
CodeV-R1是中科院计算所团队开发的专用于Verilog硬件描述语言自动生成的推理增强型大语言模型框架。该研究克服了三大关键挑战:缺乏自动化验证环境、高质量数据稀缺和计算成本高昂。研究团队通过开发自动测试台生成框架、设计往返数据合成方法和实施两阶段训练流程解决了这些问题。基于此框架训练的CodeV-R1-7B模型在VerilogEval v2和RTLLM基准测试上取得了68.6%和72.9%的pass@1成绩,超越同类模型12~20%,甚至在某些指标上超过了671B参数的DeepSeek-R1。
zip2zip是一项创新技术,通过引入动态自适应词汇表,让大语言模型在推理时能够自动组合常用词组,显著提高处理效率。由EPFL等机构研究团队开发的这一方法,基于LZW压缩算法,允许模型即时创建和使用"超级tokens",将输入和输出序列长度减少20-60%,大幅提升推理速度。实验表明,现有模型只需10个GPU小时的微调即可适配此框架,在保持基本性能的同时显著降低计算成本和响应时间,特别适用于专业领域和多语言场景。
这项研究创新性地利用大语言模型(LLM)代替人类标注者,创建了PARADEHATE数据集,用于仇恨言论的无毒化转换。研究团队首先验证LLM在无毒化任务中表现可与人类媲美,随后构建了包含8000多对仇恨/非仇恨文本的平行数据集。评估显示,在PARADEHATE上微调的模型如BART在风格准确性、内容保留和流畅性方面表现优异,证明LLM生成的数据可作为人工标注的高效替代方案,为创建更安全、更具包容性的在线环境提供了新途径。
这项研究由中国科学技术大学的研究团队提出了Pro3D-Editor,一种新型3D编辑框架,通过"渐进式视角"范式解决了现有3D编辑方法中的视角不一致问题。传统方法要么随机选择视角迭代编辑,要么同时编辑多个固定视角,都忽视了不同编辑任务对应不同的"编辑显著性视角"。Pro3D-Editor包含三个核心模块:主视角采样器自动选择最适合编辑的视角,关键视角渲染器通过创新的MoVE-LoRA技术将编辑信息传递到其他视角,全视角精修器修复并优化最终3D模型。实验证明该方法在编辑质量和准确性方面显著优于现有技术。
这项研究提出了ComposeAnything,一个无需重新训练的框架,可显著提升AI图像生成模型处理复杂空间关系的能力。该技术由INRIA、巴黎高师和CNRS的研究团队开发,通过三个创新步骤工作:首先利用大型语言模型创建包含深度信息的2.5D语义布局,然后生成粗略的场景合成图作为先验指导,最后通过物体先验强化和空间控制去噪引导扩散过程。在T2I-CompBench和NSR-1K基准测试中,该方法远超现有技术,特别是在处理复杂空间关系和多物体场景时表现卓越,为AI辅助创意设计开辟新可能。
OmniResponse是由KAUST和埃克塞特大学研究团队开发的创新系统,首次实现了在线多模态对话响应生成(OMCRG)任务。该系统能够实时处理说话者的视频和音频输入,并生成与之同步的听众面部表情和语音反馈,通过引入文本作为中间模态并利用Chrono-Text和TempoVoice两个关键模块解决了多模态同步生成的难题。研究团队还构建了ResponseNet数据集作为评估基准,实验表明OmniResponse在语义内容、音视频同步和生成质量方面显著优于基线模型,为人机交互、元宇宙体验和心理健康干预等应用领域开辟了新可能。
IBM研究院AI团队开发的POBs基准测试揭示了大型语言模型在主观话题上表现出明显偏好,尤其倾向于进步-集体主义观点。研究发现,增加测试时计算(思考时间)对减少模型偏见效果有限,且更新版本的模型反而表现出更强烈的立场和更低的一致性。这项研究提供了评估AI系统意识形态倾向的工具,帮助用户和企业做出更明智的选择。
时尚零售巨头维多利亚的秘密因安全事件导致网站和线上订单服务中断,已立即启动应急响应、邀请第三方专家协助恢复运营,实体店仍正常营业。
6月4日至5日,以“万兆光网 协同智算”为主题的2025中国光网络研讨会(OptiNet China)在北京盛大召开。
东京大学研究团队开发的WebChoreArena是一个全新的网页代理评估基准,它包含532个精心设计的任务,专注于测试AI代理处理繁琐、复杂网页任务的能力。研究结果显示,即使是最先进的语言模型(如Gemini 2.5 Pro)在这些挑战性任务上的表现也比常规任务降低了约14个百分点,证明了这一基准有效区分了不同模型的能力。WebChoreArena通过设计海量记忆、计算、长期记忆等类型的任务,为评估AI代理在实际应用场景中的表现提供了更严格的标准。
这项研究提出了一种名为LIFT的新型微调方法,通过在低秩近似后识别大语言模型中的主要权重进行稀疏微调。研究表明,仅更新5%的主要权重就能在推理任务上超越全参数微调,同时保持与LoRA相当的内存效率。LIFT在常识推理、算术推理等多项任务上表现优异,还能更好地平衡学习新知识与保留原有能力。这一方法揭示了大语言模型中关键参数的重要性,为资源高效的模型定制提供了新思路。
这篇研究从王子苏丹大学的学者团队提出了阿拉伯语言模型评估的新范式,首先建立了全面的理论指南,然后分析了现有评估数据集的不足,并引入了阿拉伯深度迷你数据集(ADMD)作为解决方案。ADMD包含490个涵盖10个领域的挑战性问题,用于评估五大顶级语言模型。结果显示Claude 3.5 Sonnet表现最佳(30%准确率),而所有模型在需要深度文化理解的领域表现欠佳。研究强调了将文化能力与技术精确性结合的重要性,为阿拉伯语NLP提供了新方向。
该研究提出了SRPO框架,一种两阶段反思感知强化学习方法,用于增强多模态大语言模型的推理能力。通过构建高质量的反思数据集进行监督微调,并设计专门的奖励机制鼓励有效反思,SRPO成功解决了现有模型在复杂推理任务中缺乏自我反思和自我纠错能力的问题。实验表明,SRPO在MathVista等多个基准测试上显著优于现有最先进模型,证明了反思导向训练可以有效扩展模型的推理能力边界。
这项研究介绍了MIKU-PAL,一种突破性的自动化多模态情感语音标注系统,能以低成本、高一致性(Fleiss κ达0.93)自动标注语音情感。研究团队基于心理学理论扩展了情感分类系统至26种类别,并发布了131.2小时的MIKU-EmoBench数据集。系统在MELD上达到68.5%的人类水平准确率,为情感语音合成领域解决了长期存在的数据瓶颈问题,推动语音合成技术迈向更自然、丰富的情感表达。
来自阿里巴巴Qwen团队和清华大学LeapLab的研究人员通过分析词元熵模式,揭示了大型语言模型推理能力背后的关键机制。研究发现只有约20%的"高熵少数派"词元像思维路径上的"岔路口",决定着推理方向。惊人的是,仅对这20%的词元应用强化学习,不仅保持了性能,在大模型上甚至超越了传统方法,在Qwen3-32B上提高了AIME测试集11.04分。这一发现超越了经典80/20法则,提供了优化大模型推理能力的全新视角。
西湖大学团队提出的梯度分组缩放(SGG)方法巧妙解决了大语言模型训练中的关键挑战。与传统方法不同,SGG动态聚类每层参数并应用特定缩放因子,既保留参数级优化又引入组级约束。实验证明,SGG在多种任务和模型规模上显著提升性能,特别是使低秩训练首次达到全秩性能水平,且具有出色的稳定性和灵活性,为资源受限环境下的大模型训练提供了实用解决方案。