这篇研究介绍了Meta团队开发的Multi-SpatialMLLM,一种能够理解多帧图像空间关系的多模态大语言模型。研究者创建了首个大规模多帧空间理解数据集MultiSPA,包含超过2700万个样本,并在此基础上训练模型掌握深度感知、视觉对应和动态感知能力。实验表明,该模型显著超越了现有系统,在空间理解任务上平均提升36%,并展示出多任务协同效应和能力涌现现象,为机器人学习等实际应用提供了新的可能性。
RAVENEA是哥本哈根大学研究团队开发的首个多模态检索增强视觉文化理解基准,集成了超过10,000份人工标注的维基百科文档,用于评估视觉语言模型的文化敏感性。研究发现,轻量级视觉模型在配备文化感知检索功能后,在文化视觉问答和图像描述任务上分别提升了至少3.2%和6.2%的性能,证明了检索增强方法在提升AI文化理解能力方面的有效性,为构建更具文化包容性的视觉AI系统开辟了新路径。
斯科尔科沃科技学院研究团队开发了一种新型损失函数——基于伊塔库拉-赛托散度的损失函数,用于解决风险敏感强化学习中的数值不稳定性问题。与传统方法相比,该损失函数不仅数值稳定,还保持尺度不变性,同时保留指数效用的理论保证。研究团队在多种金融场景和鲁棒组合优化问题上验证了其优越性,表明该方法可有效应用于金融、医疗和自动驾驶等高风险决策领域。
本文介绍了 AI 工厂如何通过整合芯片制造、超级计算及数据中心部署,推动全球企业转型升级。文中详细阐述了 NVIDIA 与国际伙伴在技术创新、产业变革和可持续发展方面的探索与挑战。
VAST Data 推出了一款集成 AI 操作系统,通过整合存储、实时数据处理、向量数据库和原生代理编排等功能,旨在简化复杂的 AI 基础设施部署。该方案有望降低部署难度及延时,但其与 Nvidia 深度绑定以及封闭式整合可能限制使用弹性,面临开放模块化生态系统的挑战。
SpaceX 在第九次 Starship 测试飞行中实现了与 Super Heavy 助推器的成功分离并进入轨道,但随后失控旋转,导致不受控重返大洋。试飞虽展现技术进步,却也暴露出复飞中的问题,促使公司进行硬件改进。
Anthropic 推出的更新使 Claude 支持语音对话,能查询 Google 应用数据并提供网页搜索;此举让用户在手机上享受更便捷、丰富的 AI 交互体验。
VLM-R3是一项由北京大学和阿里巴巴联合研发的突破性技术,它通过区域识别、推理和优化三大功能,使多模态大语言模型能够在推理过程中动态聚焦图像的不同区域。类似于人类在思考时会反复观察图像关键部分,VLM-R3通过创新的区域条件强化学习方法,大幅提高了视觉推理能力,在MathVista、ScienceQA等基准测试上表现优异,特别是在需要精细空间理解的任务中效果显著。
本文介绍了现阶段炙手可热的 vibe 编码趋势,重点解读 Google 推出的实验产品 Stitch。该工具通过 AI 自动生成 UI 界面初稿,支持快速设计并导出至 Figma,虽在 beta 版中用户反馈参差不齐,但预示着 AI 助力编码的新方向。
这项研究提出了名为"Let Androids Dream"的创新框架,解决了多模态大语言模型在理解图像隐喻方面的核心难题——上下文缺失。通过模拟人类认知过程的三阶段系统(感知、搜索、推理),该框架即使使用轻量级GPT-4o-mini模型,也能在英语和中文图像寓意理解任务中达到最先进性能,在开放式问题上甚至超越GPT-4o模型36.7%。这一成果不仅推动了视觉-语言推理技术的发展,还为未来AI系统理解人类文化中的隐喻和象征提供了新方向。
这项研究探讨了如何使大语言模型生成的机器翻译体现特定译者的风格特点。研究团队来自格罗宁根大学和米兰-比可卡大学,他们使用PAR3数据集(包含7种语言小说的多译者翻译)进行实验。他们首先验证了译者风格的可区分性,然后比较了提示方法与转向技术在引导模型生成个性化翻译方面的效果。研究创新性地提出了基于稀疏自编码器的对比转向方法,通过调整模型内部表示来引导输出风格。结果表明,该方法在保持翻译质量的同时能有效实现个性化,且对较小模型尤其有效。
在当今数字化时代,软件已成为企业运营与创新的核心驱动力。随着企业数字化转型的加速,软件的复杂性和迭代速度达到了前所未有的高度。
Netflix首席产品官 Kim 将于今年10月27-29日在旧金山Moscone West举办的TechCrunch Disrupt 20周年庆上,分享产品策略、全球商业布局与内容创作技术的创新实践。
英国金融科技公司在转型成熟后正大力招聘技术、网络安全及风控人才,以应对产品扩展、系统升级和日益严格的监管要求,同时反映出投资收缩趋势。
MathWorks 遭受勒索软件攻击,导致旗下旗舰产品 MATLAB 及相关服务中断,授权中心无法验证许可证,部分用户甚至转而采取破解应急。目前大部分功能已恢复,但安全问题仍待解决。
本文章探讨软件工程领导者如何设计、构建与交付高价值软件,聚焦客户与业务目标,通过评估、规划、提升安全和质量,并利用平台工程实现规模效应。
Java自30年前诞生以来,通过“一次编写,到处运行”的理念重塑开发生态,并成为企业核心技术,历经风雨仍值得信赖。
文章探讨了借助 AI 工具实现各类场景增强(如影视中 EDITH 与现实中的 Cluely AI),提升工作与社交表现,同时引发对伦理风险的讨论。
PEAK:AIO 采用 CXL 内存突破 GPU HBM 内存限制,实现 AI 推理任务中 KVCache 重用、长上下文扩展及超低延迟访问,加速大规模模型推理。
研究表明,科技企业正利用AI减少应届生招聘,同时增加有经验人才的引进;掌握AI技能将成为新卒求职的关键。