最新文章第7页

2025-09-16

VITA-1.5：让计算机像人一样同时"看"和"说话"的革命性突破

VITA-1.5是首个实现GPT-4o级别实时视觉语音交互的开源多模态大语言模型。通过创新的三阶段训练策略，系统能够同时处理图像、视频和语音信息，实现端到端的语音对话，无需外部ASR或TTS模块。在多项基准测试中表现优异，语音识别准确率达到97.8%以上，为多模态人机交互开辟了新的可能性。

腾讯邱跃鹏：面向Agent和全球化趋势，全面升级云基础设施

腾讯云已在推理加速、Agent Infra和国际化布局等方面取得突破，并将以更加开放的姿态，助力企业把握时代机遇。

2025腾讯全球数字生态大会：腾讯AI能力全面开放让“好用的AI”在千行百业中加速落地

2025腾讯全球数字生态大会宣布通过腾讯云也将自身累积的技术沉淀与AI实践全面开放，打造“智能化引擎”，通过智能体解决方案、“SaaS+AI”、大模型技术三大升级，打造“好用的AI”，激发企业创新潜能。

智能头戴设备AiSee为视障人士提供全新"视觉"体验

新加坡国立大学研究人员开发出名为AiSee的可穿戴辅助设备，利用Meta的Llama模型帮助视障人士"看见"周围世界。该设备采用耳机形态，配备摄像头作为AI伴侣处理视觉信息。通过集成大语言模型，设备从简单物体识别升级为对话助手，用户可进行追问。设备运行代理AI框架，使用量化技术将Llama模型压缩至10-30亿参数在安卓设备上高效运行，支持离线处理敏感文档，保护用户隐私。

OpenAI发布GPT-5-Codex模型，可自动处理耗时编程任务

OpenAI推出新AI模型GPT-5-Codex，能够在无用户协助下完成数小时的编程任务。该模型是GPT-5的改进版本，使用额外编码数据训练。测试显示，GPT-5-Codex可独立工作超过7小时，能自动发现并修复编码错误。在重构基准测试中得分51.3%，比GPT高出17%以上。模型可根据任务难度调整处理时间，简单请求处理速度显著提升。目前已在ChatGPT付费计划中提供。

英伟达与CoreWeave达成63亿美元GPU算力担保协议

英伟达与新兴云服务商CoreWeave签署协议，承诺在2032年前为其提供63亿美元GPU计算容量担保。作为CoreWeave 7%股东，英伟达此举旨在培养与AWS、微软和谷歌抗衡的合作伙伴。该协议平均每年担保9亿美元容量，相当于约9400个GPU的年租赁。这种合作模式反映了AI领域中云服务商、芯片厂商和AI模型开发商之间复杂的资本循环关系。

Divergent获2.9亿美元融资，扩大军用部件生产

先进制造公司Divergent Technologies融资2.9亿美元，用于扩大导弹零部件及其他军用专业组件的生产。此轮融资对公司估值23亿美元，客户包括洛克希德·马丁、RTX和通用动力等主要国防承包商。新资金将用于扩建洛杉矶制造设施，并在俄克拉荷马州建设新工厂。该公司专业3D打印机可制造多达600种零部件，金属导弹机身是其核心业务。

VideoRefer套件：阿里达摩院让视频AI真正"看懂"复杂场景中的每个物体

阿里达摩院联合浙江大学推出VideoRefer套件，这是首个能够精确理解视频中特定物体的AI系统。该系统不仅能识别整体场景，更能针对用户指定的任何物体进行详细分析和跨时间追踪。研究团队构建了包含70万样本的高质量数据集VideoRefer-700K，并设计了全面的评估体系VideoRefer-Bench。实验显示该技术在专业视频理解任务中显著超越现有方法，在安防监控、自动驾驶、视频编辑等领域具有广阔应用前景。

人工智能

视频分割

多模态交互

2025-09-16

UC默塞德等高校联合推出Sa2VA：让AI同时看懂图像和视频的智能助手

Sa2VA是由UC默塞德等高校联合开发的突破性AI系统，首次实现图像视频的统一理解与精确分割。通过巧妙融合SAM-2视频分割技术和LLaVA多模态对话能力，Sa2VA能够同时进行自然对话和像素级物体标注。研究团队还构建了包含7万多个复杂视频表达式的Ref-SAV数据集，显著提升了AI在长文本描述和复杂场景下的表现。实验显示，Sa2VA在多个基准测试中达到业界领先水平，为视频编辑、医疗诊断、智能监控等领域带来新的应用可能性。

人工智能

视频生成

开源技术

2025-09-16

Lightricks团队打造视频生成新利器：2秒生成5秒视频的LTX-Video模型

LTX-Video是由以色列Lightricks公司开发的革命性开源视频生成模型，能够在2秒内生成5秒高质量视频，实现了比实时播放更快的生成速度。该模型创新性地整合了视频压缩和生成过程，采用1:192的超高压缩比和共享去噪机制，在人类评估中表现显著优于同类模型。作为完全开源的项目，它为教育、营销、内容创作等多个领域提供了强大而accessible的视频生成能力。

多模态奖励模型

强化学习

AI对齐技术

2025-09-16

上海AI实验室重磅推出多模态奖励模型IXC-2.5-Reward：让AI更懂你的偏好

上海AI实验室推出的IXC-2.5-Reward是首个开源多模态奖励模型，能同时理解文本、图像和视频内容并评判AI回答质量。该模型在VL-RewardBench测试中达到70%准确率，超越所有开源模型，可用于AI训练优化、推理时最优选择和数据质量控制三大场景，为多模态AI发展提供了重要基础工具。

人工智能

测试时推理

深度学习

2025-09-16

苏州大学团队揭示AI推理的秘密：从快速反应到深度思考的完整进化图谱

苏州大学等机构联合发表的这项研究首次系统性梳理了AI测试时计算技术的发展全貌。研究揭示了AI正在经历从快速直觉反应向深度推理思考的重大转变，通过重复采样、自我纠错、树搜索等策略显著提升推理能力。这种"给AI更多思考时间"的技术革命不仅推动了数学、编程等领域的突破，更为通用人工智能的实现指明了方向。

人工智能

混合专家模型

自主选择机制

2025-09-16

人工智能专家团队首次让AI"专家"自己选择任务：中美研究团队颠覆混合专家模型传统设计

中美研究团队提出专家自主选择的AI新架构，让AI专家根据内在激活强度自主选择处理任务，避免传统路由器分配的不匹配问题。在40亿参数模型验证中，新方法在多项任务上超越传统混合专家模型，实现更均衡的负载分配和更高的处理效率，为大规模AI系统的专业化分工提供了创新解决方案。

人工智能

数学推理

步骤级学习

2025-09-16

上海AI实验室团队让GPT-4o数学推理能力飞跃4.6%：一种让AI在解题时"边做边学"的革命性方法

上海AI实验室团队提出BoostStep方法，通过步骤级情境学习显著提升大语言模型数学推理能力。该方法在AI解题过程中实时提供精准指导，而非传统的完整例题参考，在GPT-4o上实现4.6%性能提升，超越传统方法的1.2%。研究发现99.2%的数学错误源于单步推理失误，验证了细粒度指导的重要性。

音乐流媒体

用户体验优化

商业模式创新

2025-09-16

Spotify将允许免费用户挑选和播放指定歌曲

Spotify宣布为全球免费用户推出新功能，允许他们搜索并播放任意歌曲，或播放朋友和关注艺人分享的音乐。新功能包括"Pick & Play"、"Search & Play"和"Share & Play"。尽管如此，免费用户仍有每日点播时长限制，超出后将受到跳过次数限制。此举旨在提升免费用户参与度并增加广告收入，目前Spotify的6.96亿月活用户中有4.33亿为免费用户。

人工智能

视频理解

通过编码器融合

2025-09-16

清华大学发现：当前顶级AI视频模型连"跳跃"都看不懂！MotionBench揭示视频理解盲区

清华大学研究团队通过MotionBench发现，当前最先进的AI视频理解模型在精细动作理解方面存在严重不足，准确率不足60%。他们提出的通过编码器融合技术TE Fusion有效改进了这一问题。这项研究揭示了视频AI理解的基础能力缺陷，为该领域发展指明了新方向。

视频理解

在线视频处理

人工智能评测

2025-09-16

上海人工智能实验室重磅发布：视频AI距离理解真实世界的在线视频还有多远？

上海人工智能实验室联合多家机构推出OVO-Bench评测体系，首次系统评估视频AI的在线理解能力。研究发现当前最先进的模型如GPT-4o在实时视频理解任务中表现远不如人类，缺乏时间感知、实时记忆和主动响应能力。该研究为智能家居、在线教育、医疗监护等实际应用场景的AI升级指明方向。

潜在扩散模型

图像生成优化

训练效率提升

2025-09-16

华中科技大学团队破解AI绘画难题：让图像生成模型既快又好的秘密武器

华中科技大学团队破解了AI绘画系统中长期存在的优化困境：高质量图像重建与高效图像生成之间的矛盾。他们提出的VA-VAE技术通过视觉基础模型对齐，让图像压缩器在保持高精度的同时为生成器提供更易学习的环境。结合LightningDiT优化框架，该系统实现了21倍训练加速，在ImageNet数据集上创造了FID=1.35的最佳记录，为AI图像生成领域带来了突破性进展。

人工智能

链式思维推理

潜力评估奖励模型

2025-09-16

香港中文大学团队首次让AI绘画也能像人类一样"边画边思考"

香港中文大学团队首次将"链式思维推理"技术应用于AI绘画领域，教会AI像人类画家一样"边画边思考"。通过开发专门的PARM评估模型和多种训练策略，让AI绘画在复杂场景描述上提升24%，超越知名的Stable Diffusion 3模型15%。这项突破为AI创作工具带来更智能的"自我反思"能力。

于游的碎碎念

技术分享，生活分享，基本上想发啥就发啥

用AI，在数字身份验证风暴中心重构信任坐标

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: