最新文章
VITA-1.5:让计算机像人一样同时"看"和"说话"的革命性突破

VITA-1.5:让计算机像人一样同时"看"和"说话"的革命性突破

VITA-1.5是首个实现GPT-4o级别实时视觉语音交互的开源多模态大语言模型。通过创新的三阶段训练策略,系统能够同时处理图像、视频和语音信息,实现端到端的语音对话,无需外部ASR或TTS模块。在多项基准测试中表现优异,语音识别准确率达到97.8%以上,为多模态人机交互开辟了新的可能性。

2025-09-16

腾讯邱跃鹏:面向Agent和全球化趋势,全面升级云基础设施

腾讯云已在推理加速、Agent Infra和国际化布局等方面取得突破,并将以更加开放的姿态,助力企业把握时代机遇。

2025-09-16

腾讯汤道生:打造智能化、全球化双引擎

腾讯将打造“智能化”与“全球化”两大效率引擎,助力企业稳健和可持续增长。

2025-09-16

2025腾讯全球数字生态大会:腾讯AI能力全面开放 让“好用的AI”在千行百业中加速落地

2025腾讯全球数字生态大会宣布通过腾讯云也将自身累积的技术沉淀与AI实践全面开放,打造“智能化引擎”,通过智能体解决方案、“SaaS+AI”、大模型技术三大升级,打造“好用的AI”,激发企业创新潜能。

智能头戴设备AiSee为视障人士提供全新"视觉"体验

智能头戴设备AiSee为视障人士提供全新"视觉"体验

新加坡国立大学研究人员开发出名为AiSee的可穿戴辅助设备,利用Meta的Llama模型帮助视障人士"看见"周围世界。该设备采用耳机形态,配备摄像头作为AI伴侣处理视觉信息。通过集成大语言模型,设备从简单物体识别升级为对话助手,用户可进行追问。设备运行代理AI框架,使用量化技术将Llama模型压缩至10-30亿参数在安卓设备上高效运行,支持离线处理敏感文档,保护用户隐私。

OpenAI发布GPT-5-Codex模型,可自动处理耗时编程任务

OpenAI发布GPT-5-Codex模型,可自动处理耗时编程任务

OpenAI推出新AI模型GPT-5-Codex,能够在无用户协助下完成数小时的编程任务。该模型是GPT-5的改进版本,使用额外编码数据训练。测试显示,GPT-5-Codex可独立工作超过7小时,能自动发现并修复编码错误。在重构基准测试中得分51.3%,比GPT高出17%以上。模型可根据任务难度调整处理时间,简单请求处理速度显著提升。目前已在ChatGPT付费计划中提供。

英伟达与CoreWeave达成63亿美元GPU算力担保协议

英伟达与CoreWeave达成63亿美元GPU算力担保协议

英伟达与新兴云服务商CoreWeave签署协议,承诺在2032年前为其提供63亿美元GPU计算容量担保。作为CoreWeave 7%股东,英伟达此举旨在培养与AWS、微软和谷歌抗衡的合作伙伴。该协议平均每年担保9亿美元容量,相当于约9400个GPU的年租赁。这种合作模式反映了AI领域中云服务商、芯片厂商和AI模型开发商之间复杂的资本循环关系。

Divergent获2.9亿美元融资,扩大军用部件生产

Divergent获2.9亿美元融资,扩大军用部件生产

先进制造公司Divergent Technologies融资2.9亿美元,用于扩大导弹零部件及其他军用专业组件的生产。此轮融资对公司估值23亿美元,客户包括洛克希德·马丁、RTX和通用动力等主要国防承包商。新资金将用于扩建洛杉矶制造设施,并在俄克拉荷马州建设新工厂。该公司专业3D打印机可制造多达600种零部件,金属导弹机身是其核心业务。

VideoRefer套件:阿里达摩院让视频AI真正"看懂"复杂场景中的每个物体

VideoRefer套件:阿里达摩院让视频AI真正"看懂"复杂场景中的每个物体

阿里达摩院联合浙江大学推出VideoRefer套件,这是首个能够精确理解视频中特定物体的AI系统。该系统不仅能识别整体场景,更能针对用户指定的任何物体进行详细分析和跨时间追踪。研究团队构建了包含70万样本的高质量数据集VideoRefer-700K,并设计了全面的评估体系VideoRefer-Bench。实验显示该技术在专业视频理解任务中显著超越现有方法,在安防监控、自动驾驶、视频编辑等领域具有广阔应用前景。

UC默塞德等高校联合推出Sa2VA:让AI同时看懂图像和视频的智能助手

UC默塞德等高校联合推出Sa2VA:让AI同时看懂图像和视频的智能助手

Sa2VA是由UC默塞德等高校联合开发的突破性AI系统,首次实现图像视频的统一理解与精确分割。通过巧妙融合SAM-2视频分割技术和LLaVA多模态对话能力,Sa2VA能够同时进行自然对话和像素级物体标注。研究团队还构建了包含7万多个复杂视频表达式的Ref-SAV数据集,显著提升了AI在长文本描述和复杂场景下的表现。实验显示,Sa2VA在多个基准测试中达到业界领先水平,为视频编辑、医疗诊断、智能监控等领域带来新的应用可能性。

Lightricks团队打造视频生成新利器:2秒生成5秒视频的LTX-Video模型

Lightricks团队打造视频生成新利器:2秒生成5秒视频的LTX-Video模型

LTX-Video是由以色列Lightricks公司开发的革命性开源视频生成模型,能够在2秒内生成5秒高质量视频,实现了比实时播放更快的生成速度。该模型创新性地整合了视频压缩和生成过程,采用1:192的超高压缩比和共享去噪机制,在人类评估中表现显著优于同类模型。作为完全开源的项目,它为教育、营销、内容创作等多个领域提供了强大而accessible的视频生成能力。

上海AI实验室重磅推出多模态奖励模型IXC-2.5-Reward:让AI更懂你的偏好

上海AI实验室重磅推出多模态奖励模型IXC-2.5-Reward:让AI更懂你的偏好

上海AI实验室推出的IXC-2.5-Reward是首个开源多模态奖励模型,能同时理解文本、图像和视频内容并评判AI回答质量。该模型在VL-RewardBench测试中达到70%准确率,超越所有开源模型,可用于AI训练优化、推理时最优选择和数据质量控制三大场景,为多模态AI发展提供了重要基础工具。

苏州大学团队揭示AI推理的秘密:从快速反应到深度思考的完整进化图谱

苏州大学团队揭示AI推理的秘密:从快速反应到深度思考的完整进化图谱

苏州大学等机构联合发表的这项研究首次系统性梳理了AI测试时计算技术的发展全貌。研究揭示了AI正在经历从快速直觉反应向深度推理思考的重大转变,通过重复采样、自我纠错、树搜索等策略显著提升推理能力。这种"给AI更多思考时间"的技术革命不仅推动了数学、编程等领域的突破,更为通用人工智能的实现指明了方向。

人工智能专家团队首次让AI"专家"自己选择任务:中美研究团队颠覆混合专家模型传统设计

人工智能专家团队首次让AI"专家"自己选择任务:中美研究团队颠覆混合专家模型传统设计

中美研究团队提出专家自主选择的AI新架构,让AI专家根据内在激活强度自主选择处理任务,避免传统路由器分配的不匹配问题。在40亿参数模型验证中,新方法在多项任务上超越传统混合专家模型,实现更均衡的负载分配和更高的处理效率,为大规模AI系统的专业化分工提供了创新解决方案。

上海AI实验室团队让GPT-4o数学推理能力飞跃4.6%:一种让AI在解题时"边做边学"的革命性方法

上海AI实验室团队让GPT-4o数学推理能力飞跃4.6%:一种让AI在解题时"边做边学"的革命性方法

上海AI实验室团队提出BoostStep方法,通过步骤级情境学习显著提升大语言模型数学推理能力。该方法在AI解题过程中实时提供精准指导,而非传统的完整例题参考,在GPT-4o上实现4.6%性能提升,超越传统方法的1.2%。研究发现99.2%的数学错误源于单步推理失误,验证了细粒度指导的重要性。

Spotify将允许免费用户挑选和播放指定歌曲

Spotify将允许免费用户挑选和播放指定歌曲

Spotify宣布为全球免费用户推出新功能,允许他们搜索并播放任意歌曲,或播放朋友和关注艺人分享的音乐。新功能包括"Pick & Play"、"Search & Play"和"Share & Play"。尽管如此,免费用户仍有每日点播时长限制,超出后将受到跳过次数限制。此举旨在提升免费用户参与度并增加广告收入,目前Spotify的6.96亿月活用户中有4.33亿为免费用户。

清华大学发现:当前顶级AI视频模型连"跳跃"都看不懂!MotionBench揭示视频理解盲区

清华大学发现:当前顶级AI视频模型连"跳跃"都看不懂!MotionBench揭示视频理解盲区

清华大学研究团队通过MotionBench发现,当前最先进的AI视频理解模型在精细动作理解方面存在严重不足,准确率不足60%。他们提出的通过编码器融合技术TE Fusion有效改进了这一问题。这项研究揭示了视频AI理解的基础能力缺陷,为该领域发展指明了新方向。

上海人工智能实验室重磅发布:视频AI距离理解真实世界的在线视频还有多远?

上海人工智能实验室重磅发布:视频AI距离理解真实世界的在线视频还有多远?

上海人工智能实验室联合多家机构推出OVO-Bench评测体系,首次系统评估视频AI的在线理解能力。研究发现当前最先进的模型如GPT-4o在实时视频理解任务中表现远不如人类,缺乏时间感知、实时记忆和主动响应能力。该研究为智能家居、在线教育、医疗监护等实际应用场景的AI升级指明方向。

华中科技大学团队破解AI绘画难题:让图像生成模型既快又好的秘密武器

华中科技大学团队破解AI绘画难题:让图像生成模型既快又好的秘密武器

华中科技大学团队破解了AI绘画系统中长期存在的优化困境:高质量图像重建与高效图像生成之间的矛盾。他们提出的VA-VAE技术通过视觉基础模型对齐,让图像压缩器在保持高精度的同时为生成器提供更易学习的环境。结合LightningDiT优化框架,该系统实现了21倍训练加速,在ImageNet数据集上创造了FID=1.35的最佳记录,为AI图像生成领域带来了突破性进展。

香港中文大学团队首次让AI绘画也能像人类一样"边画边思考"

香港中文大学团队首次让AI绘画也能像人类一样"边画边思考"

香港中文大学团队首次将"链式思维推理"技术应用于AI绘画领域,教会AI像人类画家一样"边画边思考"。通过开发专门的PARM评估模型和多种训练策略,让AI绘画在复杂场景描述上提升24%,超越知名的Stable Diffusion 3模型15%。这项突破为AI创作工具带来更智能的"自我反思"能力。