最新文章第4页

2025-09-17

机器人也能预测未来？上海AI实验室打造"会做梦"的机器人大脑

上海AI实验室等机构联合开发的EnerVerse系统，首次让机器人具备了"想象未来"的能力。通过将视频生成技术与机器人控制结合，该系统能够预测操作过程并生成相应动作。核心创新包括块状自回归生成、自由锚点视角和4D数据生成引擎，在LIBERO基准测试中达到最佳水平，并在真实环境中成功完成复杂操作任务。

日本Sakana AI实验室让大模型学会"自我改造"：AI系统首次掌握实时自我调节能力

日本Sakana AI实验室开发出Transformer?系统，首次实现AI模型实时自我调节能力。该系统通过奇异值微调技术，让大模型能根据任务类型自动调整内部参数配置，仅用传统方法1%的参数量就实现显著性能提升。系统采用两轮推理机制和强化学习训练，在数学、编程、视觉等多领域测试中均表现优异，甚至支持跨模型的专家知识迁移，为构建真正智能的自适应AI系统奠定了技术基础。

香港大学团队让视频编辑像玩拼图一样简单：把任何物体精准插入视频的魔法技术

香港大学联合阿里巴巴达摩院开发出VideoAnydoor技术，实现视频中物体的精准插入和运动控制。该技术通过ID提取器、像素变形器和3D神经网络三大创新组件，让用户仅需提供参考图片和轨迹就能完成专业级视频编辑。在多项评估中表现卓越，为视频创作、虚拟试装、影视制作等领域带来革命性突破。

阿里巴巴团队发布MinMo：让AI和人类像朋友一样自然聊天的革命性语音模型

MinMo是阿里巴巴通义实验室开发的80亿参数多模态语音模型，在140万小时语音数据上训练，实现了全双工语音交互，支持多语言识别翻译、情感分析、风格控制等功能，语音响应延迟仅100-800毫秒，在各项语音任务上达到业界最佳性能，代表了AI语音交互技术的重大突破。

清华大学团队发布URSA：首个多模态数学推理过程奖励模型，让AI数学推理像人一样可验证

清华大学团队发布URSA系统，这是首个针对多模态数学推理的过程奖励模型。该系统通过创新的三阶段训练框架，不仅能解决复杂的图文结合数学问题，更重要的是能提供完全可验证的推理过程。URSA在六个标准测试中全面超越同规模开源模型，甚至在平均性能上超过GPT-4o达2.7个百分点，代表了AI推理可解释性的重要突破。

中科院团队推出LLaVA-Mini：仅用一个视觉token实现高效图像视频理解

中科院团队开发的LLaVA-Mini实现了多模态AI领域的重大突破，将图像理解所需的视觉token从576个压缩至1个，性能不降反升。通过创新的预融合技术和智能压缩机制，该模型计算量减少77%，速度提升3倍，内存占用减少600倍。这一成果使普通设备也能进行高效的图像视频理解，为多模态AI的普及化应用奠定了基础。

更多“厨师”、更快“出餐”：Graviton4的性价比账单

每一次Amazon Graviton的升级，都带来了两位数的性能提升，同时单位算力的功耗也在持续下降，这也预示着我们也正在迈入新一轮高效算力时代。

PTC推出Arena AI助手以加速PLM和QMS工作流程

PTC今日宣布发布其Arena(R)产品生命周期管理（PLM）和质量管理系统（QMS）的人工智能（AI）助手，助力团队加速价值实现。

智能体互联的“Email时刻”到来，MCP塑造“智能体经济”基石

在“PEC 2025 AI创新者大会暨第二届提示工程峰会”的“MCP引领Agent互联网新世界的钥匙与协议”分论坛上，来自至顶网、AIGC Link等联合主办方的专家与产业先锋们，围绕MCP的技术演进、应用潜力与生态建设展开深入交流，探讨其在推动Agent互联网走向大规模协同中的关键作用。

阿里巴巴团队推出CODEELO：首个让AI与人类程序员公平竞技的编程挑战平台

阿里巴巴团队开发了CODEELO，这是首个让AI模型与人类程序员在相同条件下公平竞技的编程评估平台。该系统通过直接将AI代码提交到真实竞赛平台CodeForces进行评判，实现了零误判和完全公平的评估环境。测试33个主流AI模型发现，只有OpenAI的o1-mini表现突出（评级1578，超越90%人类选手），大多数模型仍处于人类参赛者最低20%水平，揭示了AI在复杂推理任务中的真实能力差距。

清华大学与快手联合推出VideoReward：让AI视频生成更懂人心的突破性方法

这项由清华大学与快手科技等机构合作的研究构建了包含18.2万个人工标注样本的大规模视频偏好数据集，开发了VideoReward多维度视频评价系统，并提出了Flow-DPO等三种对齐算法，成功让AI视频生成模型学会按照人类偏好创作内容，显著提升了生成视频的质量和用户满意度。

当架构为AI而生，Arm Lumex CSS成为移动计算新基石

在模型、框架\应用场景,快速迭代的背景下，算力的竞争已经不再只是单点性能的比拼，而是平台化、体系化的持续进化。Arm选择在架构层面重新定义计算底座，用灵活、可扩展的方式回应AI的不确定性与爆发力。

ByteDance推出学术搜索神器：AI帮你轻松找齐论文，不再为文献调研发愁

ByteDance研究团队开发了PaSa智能学术搜索系统，通过双AI代理架构解决传统搜索局限性。系统能自动阅读论文、追踪引用网络，实现深度文献挖掘。在真实测试中，PaSa相比现有最佳方法在相关论文发现率上提升近40%。该系统已开源，为全球学术研究提供高效文献调研工具。

微软团队让AI聊天更快更省钱：SIGMA模型把计算机系统管理变成会说话的智能助手

微软团队开发的SIGMA是首个专为系统域任务设计的高效大语言模型，通过创新的DiffQKV注意力机制在保持性能的同时大幅提升推理效率，在长文本场景下速度提升达33.36%。该模型在系统管理任务上的表现全面超越GPT-4，为AI在专业技术领域的应用开辟了新路径。

YouTube推出Shorts创作者生成式AI工具套件

YouTube在其直播活动中发布了多项面向Shorts创作者的生成式AI工具，包括定制版Veo 3 Fast视频生成模型、新的混音工具和AI编辑功能。Veo 3 Fast能以480p分辨率低延迟生成带声音的视频片段，支持图像动画化、视频风格转换等功能。新的语音转歌曲混音工具可将对话转为配乐，AI编辑功能则能将原始素材自动制作成初稿。这些工具将陆续在多个市场推出。

谷歌推出Windows桌面应用，为PC带来Spotlight式搜索体验

谷歌发布了一款全新的Windows桌面应用程序，为PC用户带来了类似Mac系统Spotlight搜索功能的搜索栏体验。这款应用旨在提升Windows用户的搜索效率和使用体验，让用户能够更便捷地在电脑上查找文件、应用程序和其他内容。

劳埃德银行集团首席数据分析官博特朱表示，金融机构正探索通过生成式AI直接为客户提供服务，以解决传统个人化金融咨询模式无法规模化的问题。由于大语言模型存在"幻觉"等问题，银行采用"智能体作为评判者"的方法，让不同AI模型评估和审查其他模型的输出结果。该银行与苏格兰初创公司Aveni合作开发了专门的金融服务大语言模型FinLLM，并建立多重防护机制确保AI输出符合监管要求，为更广泛人群提供高质量金融指导服务。

人工智能

图像编辑

应用增长

2025-09-17

Gemini凭借AI图像模型Nano Banana称霸应用商店

Gemini移动应用自8月推出Nano Banana图像编辑模型后用户激增，该模型因能轻松执行复杂编辑和创建逼真图像而广受好评。据应用情报公司Appfigures数据，9月份下载量环比增长45%，已达1260万次。应用在9月12日超越ChatGPT成为美国App Store第一名，并在全球108个国家跻身iPhone应用前五。在消费支出方面，8月份iOS收入达160万美元，同比1月增长1291%。

人工智能

智能眼镜

新产品发布

2025-09-17

Meta Connect 2025发布会前瞻：智能眼镜成主角

Meta Connect 2025大会将于周三开幕，预计AI智能眼镜将成为焦点。公司可能发布与Ray-Ban和Oakley合作的新款智能眼镜，包括配备抬头显示屏的Hypernova眼镜和专为运动员设计的Oakley Spheara款式。此次大会是Meta成立超级智能实验室后的首次Connect会议，扎克伯格将发表主题演讲，讨论元宇宙、Quest头显和AI发展计划。

量子计算

人工智能

数据中心建设

2025-09-17

英国初创公司在纽约安装首台量子计算机

英国Oxford Quantum Circuits公司在曼哈顿数据中心安装了纽约市首台量子计算机，旨在为客户提供更快速高效的AI程序运行服务。该公司计划未来3-5年投资数千万美元，部分用于采购英伟达芯片进行集成。这一"量子-AI数据中心"项目预计将显著提升数据生成效率，特别有利于金融领域应用。

于游的碎碎念

技术分享，生活分享，基本上想发啥就发啥

用AI，在数字身份验证风暴中心重构信任坐标

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: