香港中文大学多媒体实验室开发的MINT-CoT是一种创新方法,能让AI在数学视觉推理中实现精确的"视觉交织"。这项技术通过引入特殊的"交织令牌",使模型能够在推理过程中自动选择关注任意形状的相关图像区域,而非仅限于矩形框。研究团队构建了包含54K样本的数据集,并通过三阶段训练策略显著提升了模型性能,在多个数学视觉基准测试上取得32.59%到23.2%不等的巨大进步。
这项研究介绍了EOC-Bench,一个创新基准测试,专门评估多模态大语言模型在第一人称视角场景中对物体的认知能力。研究团队从三个时间维度(过去、现在和未来)构建了3,277个问答对,涵盖11个细粒度评估维度,创新性地使用视觉提示解决物体引用问题。评估结果显示,即使最先进的模型如GPT-4o在物体时间感知方面也显著落后于人类,特别是在绝对时间感知上。这一研究为发展更强大的体感AI系统提供了重要参考,对增强现实和机器人技术等领域具有深远影响。
这篇论文由加州大学伯克利分校和香港大学的研究团队提出了LIFT方法,挑战了传统视觉语言模型需要同时训练文本和图像编码器的假设。研究发现,使用预训练的大型语言模型作为固定文本编码器,只训练图像编码器就能在多项任务上超越CLIP,特别是在理解空间位置、对象属性关联等组合信息方面。LIFT不仅提高了计算效率,还解决了CLIP在处理复杂语义关系和长文本描述时的短板,为视觉语言模型提供了一条更高效的发展路径。
FlexPainter是香港科技大学团队开发的创新纹理生成系统,通过多模态输入控制实现灵活创作,并解决了多视角一致性问题。系统构建了共享条件嵌入空间,能同时理解文字和图像输入;提出基于图像的CFG方法实现结构与风格分离;通过多视角图像网格表示和视角同步机制确保全局和局部一致性;最终生成高质量、无缝的纹理贴图。实验证明系统在灵活性和生成质量上显著优于现有方法,为3D内容创作提供了更直观高效的工具。
研究显示,英国中小企业虽占企业总数99.9%,但因资源与专业不足,难以有效应对网络攻击。CyCOS项目旨在通过构建支持社区,帮助中小企业提升网络防御能力。
Wispr 的 Flow 是一款创新的 iOS 语音输入软件,借助 AI 技术能将语音无缝转换为精美文字,每周免费 2000 字,支持 100 多种语言,并能实现多设备同步。
专家指出,虽然开源软件极大推动了创新和开发,但其复杂性、合规、安全等问题要求企业投入更多精力,务必加强测试与管理,确保系统稳定运行。
Merlin Ventures 成功募集超7500万美元种子阶段网络安全基金,通过美国 CISO 网络和战略投资推动初创企业成长,并重点发展以色列科技生态系统。
大型企业的CISO薪酬和职责不断提升,涵盖业务风险、产品安全及数字战略,但预算紧缩使得安全投入必须直接与业务增长挂钩,进而带来角色定位及满意度的不确定性。
这项研究提出了一种名为"词汇偏向水印"(LBW)的新方法,专为自回归图像生成模型设计,能够抵抗传统水印技术容易被删除的重生成攻击。研究团队将代币库分为绿色和红色列表,通过软硬两种偏向策略鼓励模型在生成过程中选择绿色列表中的代币,并采用多绿色列表策略增强安全性。实验表明,LBW在多种攻击下展现出卓越的稳健性,尤其是在面对重生成攻击时表现突出,为AI生成内容的可追溯性提供了更可靠的技术保障。
这项研究推出了VideoMathQA,一个创新基准测试,专门评估人工智能模型在视频中的数学推理能力。不同于静态图像或文本基准,它要求模型在时间轴上整合视觉、音频和文本信息,模拟真实教学场景中的"多模态大海捞针"挑战。基准测试涵盖10个数学领域,视频长度从10秒到1小时以上,设计了三种推理挑战:直接问题解决、概念迁移和深度理解。对30个模型的评估显示,专有与开源系统的差距正在缩小,而模型成功不仅取决于规模,还受架构和训练质量影响。
南方科技大学林剑满团队开创性提出DGAD模型,解决通用物体组合中几何编辑与外观保持的双重挑战。该方法首先利用语义嵌入隐式捕捉物体几何特性,再通过密集交叉注意力机制精确对齐外观特征,成功实现物体在任意场景中的灵活编辑同时保持细节不变。实验表明,DGAD在编辑灵活性和外观保真度上均优于现有技术,为AR/VR内容创建等应用提供了强大工具。
斯坦福大学和英伟达研究院联合开发的"矫正点流"为点云姿态估计提供了全新解决方案,将成对配准和多部件组装统一为条件生成问题。该方法学习连续点流场,将点从随机噪声引导至目标位置,并通过自监督重叠预测增强几何理解。实验证明,矫正点流在六个基准测试中均超越现有技术,特别是在处理部件对称性和互换性方面表现出色。联合训练策略使单一模型能从不同数据集中学习共享几何先验,大幅提升性能。
这篇研究介绍了Micro-Act,一种创新框架,旨在解决问答系统中的知识冲突问题。由香港大学等机构研发的这一方法能够自动感知上下文复杂度,并将知识源分解成一系列细粒度比较,有效克服了传统方法在处理复杂冲突时的局限性。实验表明,Micro-Act在五个基准数据集上显著超越了现有技术,并在无冲突场景中保持稳健性能,为构建更可靠的检索增强生成系统提供了新思路。
这项研究揭示了评估大语言模型推理能力时的一个重要问题:微小的评估条件变化可能导致基准测试结果大幅波动。研究者发现,DeepSeek-R1-Distill系列等模型的评估结果极易受到种子初始化方法、数据集版本等因素影响,波动幅度甚至超过模型训练带来的性能提升。研究团队提出了一个基于透明性和稳定性原则的严格评估范式,建议使用统计学方法确定适当的测试次数,并详细披露所有评估条件,以提高评估的公平性和可靠性。
本文介绍了 Agentic AI 的概念、特点及应用,强调其自主决策、分解任务与执行复杂目标的能力,并探讨了应用场景与潜在风险。
本篇文章以 Navin Chaddha 的采访为主线,阐述了 AI 技术背后人际伙伴关系和早期合作的重要性,以及“协同智能即服务”的理念,强调未来创新依旧由人类主导,技术只是辅助工具。
CapSpeech是约翰·霍普金斯大学等机构联合提出的风格描述文本转语音合成基准,包含超过1000万机器标注和36万人工标注的语音-描述配对。它支持五大下游任务:基础风格描述、带音效的语音合成、口音控制、情感表达和表现力丰富的虚拟代理。研究团队开发了自回归和非自回归两种模型,并通过客观和主观评估证明了该基准的有效性。CapSpeech不仅丰富了语音合成的表现力和可控性,还为实际应用如有声读物、对话代理和跨文化语音合成铺平了道路。
6月5日,"Accelerate 2025北亚巡展·北京站"圆满落幕!来自智库、产业界、Fortinet管理层及技术团队的权威专家,与来自各行业的企业客户代表齐聚一堂,围绕"AI智御全球·引领安全新时代"主题,就AI技术驱动的安全防御体系重构、网络与安全的原生融合实践、全球化场景下的SASE技术落地三大核心议题展开深入研讨。
Sandia国家实验室与SpiNNcloud合作推出的SpiNNaker2类脑超级计算机,依靠48芯片高并行架构及高速SRAM/DRAM通信,无需GPU或内置存储,适用于国防及前沿计算任务。