最新文章
多空间理解新突破:Meta研究团队打造多帧空间理解的多模态大语言模型

多空间理解新突破:Meta研究团队打造多帧空间理解的多模态大语言模型

这篇研究介绍了Meta团队开发的Multi-SpatialMLLM,一种能够理解多帧图像空间关系的多模态大语言模型。研究者创建了首个大规模多帧空间理解数据集MultiSPA,包含超过2700万个样本,并在此基础上训练模型掌握深度感知、视觉对应和动态感知能力。实验表明,该模型显著超越了现有系统,在空间理解任务上平均提升36%,并展示出多任务协同效应和能力涌现现象,为机器人学习等实际应用提供了新的可能性。

RAVENEA: 哥本哈根大学团队开创多模态检索增强视觉文化理解新基准

RAVENEA: 哥本哈根大学团队开创多模态检索增强视觉文化理解新基准

RAVENEA是哥本哈根大学研究团队开发的首个多模态检索增强视觉文化理解基准,集成了超过10,000份人工标注的维基百科文档,用于评估视觉语言模型的文化敏感性。研究发现,轻量级视觉模型在配备文化感知检索功能后,在文化视觉问答和图像描述任务上分别提升了至少3.2%和6.2%的性能,证明了检索增强方法在提升AI文化理解能力方面的有效性,为构建更具文化包容性的视觉AI系统开辟了新路径。

安全交易也能抗风险:斯科尔科沃研究团队的伊塔库拉-赛托损失函数突破性研究

安全交易也能抗风险:斯科尔科沃研究团队的伊塔库拉-赛托损失函数突破性研究

斯科尔科沃科技学院研究团队开发了一种新型损失函数——基于伊塔库拉-赛托散度的损失函数,用于解决风险敏感强化学习中的数值不稳定性问题。与传统方法相比,该损失函数不仅数值稳定,还保持尺度不变性,同时保留指数效用的理论保证。研究团队在多种金融场景和鲁棒组合优化问题上验证了其优越性,表明该方法可有效应用于金融、医疗和自动驾驶等高风险决策领域。

Nvidia 与瑞典财团合作:AI 工厂重新定义经济

Nvidia 与瑞典财团合作:AI 工厂重新定义经济

本文介绍了 AI 工厂如何通过整合芯片制造、超级计算及数据中心部署,推动全球企业转型升级。文中详细阐述了 NVIDIA 与国际伙伴在技术创新、产业变革和可持续发展方面的探索与挑战。

VAST Data 挑战企业 AI 工厂

VAST Data 挑战企业 AI 工厂

VAST Data 推出了一款集成 AI 操作系统,通过整合存储、实时数据处理、向量数据库和原生代理编排等功能,旨在简化复杂的 AI 基础设施部署。该方案有望降低部署难度及延时,但其与 Nvidia 深度绑定以及封闭式整合可能限制使用弹性,面临开放模块化生态系统的挑战。

SpaceX 第九次 Starship 测试飞行升空进入太空,最终陷入旋转

SpaceX 第九次 Starship 测试飞行升空进入太空,最终陷入旋转

SpaceX 在第九次 Starship 测试飞行中实现了与 Super Heavy 助推器的成功分离并进入轨道,但随后失控旋转,导致不受控重返大洋。试飞虽展现技术进步,却也暴露出复飞中的问题,促使公司进行硬件改进。

Anthropic 在移动端推出 Claude 对话语音模式,可搜索 Google Docs、Drive、Calendar

Anthropic 在移动端推出 Claude 对话语音模式,可搜索 Google Docs、Drive、Calendar

Anthropic 推出的更新使 Claude 支持语音对话,能查询 Google 应用数据并提供网页搜索;此举让用户在手机上享受更便捷、丰富的 AI 交互体验。

VLM-R3:区域识别、推理与优化,让多模态大模型实现更精准的思维链推理

VLM-R3:区域识别、推理与优化,让多模态大模型实现更精准的思维链推理

VLM-R3是一项由北京大学和阿里巴巴联合研发的突破性技术,它通过区域识别、推理和优化三大功能,使多模态大语言模型能够在推理过程中动态聚焦图像的不同区域。类似于人类在思考时会反复观察图像关键部分,VLM-R3通过创新的区域条件强化学习方法,大幅提高了视觉推理能力,在MathVista、ScienceQA等基准测试上表现优异,特别是在需要精细空间理解的任务中效果显著。

人人都在追逐 vibe coding——Google 推出 Stitch,继 Jules 之后的新作

人人都在追逐 vibe coding——Google 推出 Stitch,继 Jules 之后的新作

本文介绍了现阶段炙手可热的 vibe 编码趋势,重点解读 Google 推出的实验产品 Stitch。该工具通过 AI 自动生成 UI 界面初稿,支持快速设计并导出至 Figma,虽在 beta 版中用户反馈参差不齐,但预示着 AI 助力编码的新方向。

让机器人像人类一样解读图像寓意:上海人工智能实验室开发出人类思维启发的图像理解框架

让机器人像人类一样解读图像寓意:上海人工智能实验室开发出人类思维启发的图像理解框架

这项研究提出了名为"Let Androids Dream"的创新框架,解决了多模态大语言模型在理解图像隐喻方面的核心难题——上下文缺失。通过模拟人类认知过程的三阶段系统(感知、搜索、推理),该框架即使使用轻量级GPT-4o-mini模型,也能在英语和中文图像寓意理解任务中达到最先进性能,在开放式问题上甚至超越GPT-4o模型36.7%。这一成果不仅推动了视觉-语言推理技术的发展,还为未来AI系统理解人类文化中的隐喻和象征提供了新方向。

定制翻译:引导大语言模型"穿上"人类译者的文体风格

定制翻译:引导大语言模型"穿上"人类译者的文体风格

这项研究探讨了如何使大语言模型生成的机器翻译体现特定译者的风格特点。研究团队来自格罗宁根大学和米兰-比可卡大学,他们使用PAR3数据集(包含7种语言小说的多译者翻译)进行实验。他们首先验证了译者风格的可区分性,然后比较了提示方法与转向技术在引导模型生成个性化翻译方面的效果。研究创新性地提出了基于稀疏自编码器的对比转向方法,通过调整模型内部表示来引导输出风格。结果表明,该方法在保持翻译质量的同时能有效实现个性化,且对较小模型尤其有效。

2025-05-28

AI 测试重塑软件质量格局,Testin 云测引领软件测试智能化变革

在当今数字化时代,软件已成为企业运营与创新的核心驱动力。随着企业数字化转型的加速,软件的复杂性和迭代速度达到了前所未有的高度。

Netflix CPO Eunice Kim 来 TechCrunch Disrupt 2025 探讨科技、工具,当然,还有其密码共享策略

Netflix CPO Eunice Kim 来 TechCrunch Disrupt 2025 探讨科技、工具,当然,还有其密码共享策略

Netflix首席产品官 Kim 将于今年10月27-29日在旧金山Moscone West举办的TechCrunch Disrupt 20周年庆上,分享产品策略、全球商业布局与内容创作技术的创新实践。

成熟的英国金融科技公司增加技术与网络安全招聘

成熟的英国金融科技公司增加技术与网络安全招聘

英国金融科技公司在转型成熟后正大力招聘技术、网络安全及风控人才,以应对产品扩展、系统升级和日益严格的监管要求,同时反映出投资收缩趋势。

针对 MATLAB 开发商 MathWorks 的勒索软件攻击 —— 许可中心仍处封锁状态

针对 MATLAB 开发商 MathWorks 的勒索软件攻击 —— 许可中心仍处封锁状态

MathWorks 遭受勒索软件攻击,导致旗下旗舰产品 MATLAB 及相关服务中断,授权中心无法验证许可证,部分用户甚至转而采取破解应急。目前大部分功能已恢复,但安全问题仍待解决。

软件工程领导者如何构建和交付软件以推动业务成果

软件工程领导者如何构建和交付软件以推动业务成果

本文章探讨软件工程领导者如何设计、构建与交付高价值软件,聚焦客户与业务目标,通过评估、规划、提升安全和质量,并利用平台工程实现规模效应。

Java如何彻底改变开发领域:代码三十周年之际

Java如何彻底改变开发领域:代码三十周年之际

Java自30年前诞生以来,通过“一次编写,到处运行”的理念重塑开发生态,并成为企业核心技术,历经风雨仍值得信赖。

外包信心:下一个大热 AI 趋势?

外包信心:下一个大热 AI 趋势?

文章探讨了借助 AI 工具实现各类场景增强(如影视中 EDITH 与现实中的 Cluely AI),提升工作与社交表现,同时引发对伦理风险的讨论。

PEAK:AIO 利用 CXL 内存拯救受 HBM 限制的 AI 模型

PEAK:AIO 利用 CXL 内存拯救受 HBM 限制的 AI 模型

PEAK:AIO 采用 CXL 内存突破 GPU HBM 内存限制,实现 AI 推理任务中 KVCache 重用、长上下文扩展及超低延迟访问,加速大规模模型推理。

人工智能可能已经在缩减科技行业的入门级岗位,新研究显示

人工智能可能已经在缩减科技行业的入门级岗位,新研究显示

研究表明,科技企业正利用AI减少应届生招聘,同时增加有经验人才的引进;掌握AI技能将成为新卒求职的关键。