最新文章

记忆坚实的世界:斯坦福和上海交大研究团队为视频世界模型打造长期空间记忆

斯坦福大学和上海交大等机构的研究团队提出了一种为视频世界模型增加长期记忆能力的创新方法。受人类记忆机制启发,他们设计了三种互补的记忆系统:短期工作记忆、基于点云的长期空间记忆和稀疏情节记忆。这种组合允许AI在生成长视频时保持场景的空间一致性,解决了现有模型因有限上下文窗口导致的"遗忘"问题。实验表明,该方法在视角回忆一致性和整体视频质量方面显著优于现有技术,为创建持续一致的虚拟世界铺平了道路。

自由飞翔的3D高斯:浙大研究团队打造高效动态场景重建新方法

自由飞翔的3D高斯:浙大研究团队打造高效动态场景重建新方法

浙江大学和吉利汽车研究院联合团队提出的FreeTimeGS是一种创新的动态3D场景重建方法。不同于传统方法,它允许高斯基元在任意时空位置自由出现,并赋予每个基元运动功能,使其能够随时间移动到相邻区域。研究通过4D正则化策略解决了高不透明度基元阻碍优化的问题。在多个数据集测试中,该方法在渲染质量和速度上均大幅超越现有技术,特别是在处理复杂动态场景时,使用单个RTX 4090 GPU能以467 FPS的速度实现1080p实时渲染,为电影制作、游戏和虚拟现实等应用提供了新可能。

对角线批处理技术:突破循环记忆Transformer模型在长上下文处理中的并行瓶颈

对角线批处理技术:突破循环记忆Transformer模型在长上下文处理中的并行瓶颈

这篇研究介绍了"对角线批处理"技术,该技术解决了循环记忆Transformer模型在处理长文本时的并行计算瓶颈。通过重新编排计算顺序,研究团队实现了在不破坏依赖关系的情况下进行并行计算,使LLaMA-1B模型处理长文本的速度提升3.3倍,同时内存使用减少167.1倍。这种纯运行时优化不需要重新训练模型,为实际应用中的长文本处理提供了高效解决方案。

解锁清晰视界:孙中山大学研究团队开创"鲁棒高斯飞溅"技术,让3D场景重建告别干扰物

孙中山大学研究团队开发的RobustSplat技术通过两大创新解决3D高斯飞溅重建中的瞬态物体干扰问题:延迟高斯增长策略优先优化静态结构,避免早期对动态物体过度拟合;尺度级联掩码引导方法先利用低分辨率特征实现可靠初始掩码估计,再过渡到高分辨率监督获得精确预测。实验证明该方法在多个挑战性数据集上明显优于现有技术,为真实场景3D重建提供更高质量、无干扰的结果。

BEVCALIB:使用几何引导的鸟瞰图表示实现激光雷达与相机校准的突破性方法

BEVCALIB:使用几何引导的鸟瞰图表示实现激光雷达与相机校准的突破性方法

BEVCALIB是一种利用鸟瞰图表示实现激光雷达与相机校准的创新方法,由南加州大学和加州大学河滨分校的研究团队开发。该方法将不同传感器数据转换到共享的BEV空间,并通过几何引导的特征选择实现高精度校准。在KITTI和NuScenes等数据集上,BEVCALIB比现有最佳方法平均提高了47-82%的性能,为自动驾驶和机器人系统提供了可靠的传感器融合基础。

PATS技术:博尔扎诺自由大学研究团队开创的运动技能评估新方法,让AI更懂专业运动员的动作质量

PATS技术:博尔扎诺自由大学研究团队开创的运动技能评估新方法,让AI更懂专业运动员的动作质量

博尔扎诺自由大学研究团队开发的PATS技术通过保留完整运动片段代替随机抽取视频帧,显著提升了AI评估体育技能的能力。该方法在EgoExo4D基准测试中表现出色,攀岩评估准确率提高26.22%,音乐提高2.39%,篮球提高1.13%。PATS能根据不同运动类型自动调整采样策略,为体育训练和人才发展提供了更准确的自动评估技术。

ComfyUI-Copilot:阿里巴巴推出的智能助手让AI艺术创作更简单

阿里巴巴与哈工大(深圳)联合推出的ComfyUI-Copilot是一款基于大语言模型的插件,旨在提升AI艺术创作平台ComfyUI的易用性。它采用多代理框架提供三大核心功能:智能节点和模型推荐、一键式工作流构建和专业问答服务,所有功能由涵盖7K节点、62K模型和9K工作流的知识库支持。评估显示其推荐准确率高,已吸引超过1.6K的GitHub星标和来自22个国家19K用户的使用。

物理感知视频生成新突破:上海交大团队开发VideoREPA,通过关系对齐赋予AI视频物理常识

物理感知视频生成新突破:上海交大团队开发VideoREPA,通过关系对齐赋予AI视频物理常识

上海交大研究团队开发的VideoREPA是一种突破性的视频生成框架,通过令牌关系蒸馏技术将视频理解模型中的物理知识转移到文本到视频(T2V)扩散模型中。与传统方法不同,VideoREPA关注空间和时间关系的对齐,使生成的视频更符合物理常识。实验表明,这种方法在VideoPhy基准测试中将物理常识分数提高了24.1%,明显优于现有技术。该研究为创建更真实的AI生成视频提供了新思路,展示了理解能力与生成质量间的密切关联。

深度图表示重新思考:如何让3D高斯分布渲染更清晰的物体边界

深度图表示重新思考:如何让3D高斯分布渲染更清晰的物体边界

浙江大学和莫纳什大学研究团队开发了PM-Loss,一种用于改进前馈式3D高斯分布渲染的新型正则化损失函数。研究针对深度图在物体边界处的不连续性问题,通过预训练Transformer模型预测的点图提供几何先验知识,实现了更平滑、准确的3D场景重建。实验表明,PM-Loss在多个数据集上显著提升了渲染质量,PSNR提高至少2dB,特别改善了物体边界处的细节表现。该方法易于集成到现有模型中,无需修改架构,为3D视觉和图形学领域提供了新的研究思路。

语言模型加持:阿里巴巴发布Qwen3系列文本嵌入和重排模型,在多语言和代码检索任务中超越行业巨头

语言模型加持:阿里巴巴发布Qwen3系列文本嵌入和重排模型,在多语言和代码检索任务中超越行业巨头

阿里巴巴和同济实验室联合推出的Qwen3 Embedding系列模型在文本嵌入和重排技术上取得突破性进展。这套模型基于Qwen3大语言模型构建,采用多阶段训练策略,结合大规模合成数据和高质量监督数据,实现了在MTEB多语言、英文、中文和代码等多个基准测试中超越现有最佳开源和商业模型的性能。该系列提供0.6B至8B参数的多种规模选择,以Apache 2.0许可开源,为搜索引擎、推荐系统和检索增强生成应用提供强大支持。

视觉密码破解:清华大学团队揭示多模态大语言模型中的视觉头稀疏性现象

视觉密码破解:清华大学团队揭示多模态大语言模型中的视觉头稀疏性现象

清华大学研究团队在多模态大语言模型(MLLMs)中发现了一个惊人现象:只有不到5%的注意力头负责视觉理解,称为"视觉头"。基于此,他们开发了SparseMM优化策略,针对视觉头和非视觉头分配不同的计算资源,实现了模型推理速度提升1.38倍,内存减少52%,同时保持性能不变。这一发现不仅揭示了MLLMs内部视觉处理机制,还为提高多模态AI系统效率提供了新思路。

StreamBP:让大语言模型训练长序列变得更轻松——香港中文大学(深圳)团队突破性研究

StreamBP:让大语言模型训练长序列变得更轻松——香港中文大学(深圳)团队突破性研究

香港中文大学(深圳)和上海交通大学的研究团队开发了StreamBP,这是一种用于大语言模型长序列训练的内存高效反向传播方法。通过沿序列维度线性分解链式法则,StreamBP显著减少了存储激活值所需的内存,使最大序列长度比梯度检查点技术提高了2.8-5.5倍,同时保持或减少了计算时间。该方法适用于SFT、GRPO和DPO等常见训练目标,并支持多GPU分布式训练。

数学视觉推理新突破:CUHK多媒体实验室的MINT-CoT如何让AI更好地理解数学图形

数学视觉推理新突破:CUHK多媒体实验室的MINT-CoT如何让AI更好地理解数学图形

香港中文大学多媒体实验室开发的MINT-CoT是一种创新方法,能让AI在数学视觉推理中实现精确的"视觉交织"。这项技术通过引入特殊的"交织令牌",使模型能够在推理过程中自动选择关注任意形状的相关图像区域,而非仅限于矩形框。研究团队构建了包含54K样本的数据集,并通过三阶段训练策略显著提升了模型性能,在多个数学视觉基准测试上取得32.59%到23.2%不等的巨大进步。

EOC-Bench: 多模态大语言模型能否识别、回忆和预测第一人称视角下的物体?

EOC-Bench: 多模态大语言模型能否识别、回忆和预测第一人称视角下的物体?

这项研究介绍了EOC-Bench,一个创新基准测试,专门评估多模态大语言模型在第一人称视角场景中对物体的认知能力。研究团队从三个时间维度(过去、现在和未来)构建了3,277个问答对,涵盖11个细粒度评估维度,创新性地使用视觉提示解决物体引用问题。评估结果显示,即使最先进的模型如GPT-4o在物体时间感知方面也显著落后于人类,特别是在绝对时间感知上。这一研究为发展更强大的体感AI系统提供了重要参考,对增强现实和机器人技术等领域具有深远影响。

语言-图像对齐不需要联合训练文本编码器?伯克利大学研究发现固定LLM模型即可

语言-图像对齐不需要联合训练文本编码器?伯克利大学研究发现固定LLM模型即可

这篇论文由加州大学伯克利分校和香港大学的研究团队提出了LIFT方法,挑战了传统视觉语言模型需要同时训练文本和图像编码器的假设。研究发现,使用预训练的大型语言模型作为固定文本编码器,只训练图像编码器就能在多项任务上超越CLIP,特别是在理解空间位置、对象属性关联等组合信息方面。LIFT不仅提高了计算效率,还解决了CLIP在处理复杂语义关系和长文本描述时的短板,为视觉语言模型提供了一条更高效的发展路径。

FlexPainter:香港科技大学团队打造的灵活多视角一致性纹理生成系统

FlexPainter:香港科技大学团队打造的灵活多视角一致性纹理生成系统

FlexPainter是香港科技大学团队开发的创新纹理生成系统,通过多模态输入控制实现灵活创作,并解决了多视角一致性问题。系统构建了共享条件嵌入空间,能同时理解文字和图像输入;提出基于图像的CFG方法实现结构与风格分离;通过多视角图像网格表示和视角同步机制确保全局和局部一致性;最终生成高质量、无缝的纹理贴图。实验证明系统在灵活性和生成质量上显著优于现有方法,为3D内容创作提供了更直观高效的工具。

Infosecurity 2025:中小企业在网络攻击面前感到孤立无援

Infosecurity 2025:中小企业在网络攻击面前感到孤立无援

研究显示,英国中小企业虽占企业总数99.9%,但因资源与专业不足,难以有效应对网络攻击。CyCOS项目旨在通过构建支持社区,帮助中小企业提升网络防御能力。

Wispr 的 Flow 语音转写软件现已可在 iPhone 上使用

Wispr 的 Flow 语音转写软件现已可在 iPhone 上使用

Wispr 的 Flow 是一款创新的 iOS 语音输入软件,借助 AI 技术能将语音无缝转换为精美文字,每周免费 2000 字,支持 100 多种语言,并能实现多设备同步。

开源软件应用面临现实检验

开源软件应用面临现实检验

专家指出,虽然开源软件极大推动了创新和开发,但其复杂性、合规、安全等问题要求企业投入更多精力,务必加强测试与管理,确保系统稳定运行。

Merlin Ventures 为种子阶段网络安全基金成功筹集逾7500万美元

Merlin Ventures 为种子阶段网络安全基金成功筹集逾7500万美元

Merlin Ventures 成功募集超7500万美元种子阶段网络安全基金,通过美国 CISO 网络和战略投资推动初创企业成长,并重点发展以色列科技生态系统。