最新文章第2页

2025-08-19

阿里推出Ovis2.5：多模态大语言模型的又一重要突破

Ovis2.5是阿里集团开发的新一代多模态大语言模型，在视觉感知和推理能力上实现重大突破。

阿里巴巴突破AI说话人视频生成技术壁垒：首次实现动作自然度、唇同步准确性和视觉质量的完美平衡

人工智能

音频驱动动画

多目标优化

2025-08-19

阿里巴巴突破AI说话人视频生成技术壁垒：首次实现动作自然度、唇同步准确性和视觉质量的完美平衡

阿里巴巴团队提出FantasyTalking2，通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集，训练三个专业模块分别优化不同维度，再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术，用户评价提升超12%。

人工智能

内存优化

算法创新

2025-08-19

UC Berkeley团队突破AI内存瓶颈：让大模型推理快7倍的神奇方法

UC Berkeley团队提出XQUANT技术，通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7，升级版XQUANT-CL更可实现12.5倍节省，同时几乎不影响模型性能。研究针对现代AI模型特点进行优化，为在有限硬件资源下运行更强大AI模型提供了新思路。

法国地理院团队让AI学会"编排"地球观测数据：MAESTRO模型如何像指挥家一样协调多源卫星信息

遥感技术

自监督学习

数据融合

2025-08-19

法国地理院团队让AI学会"编排"地球观测数据：MAESTRO模型如何像指挥家一样协调多源卫星信息

法国地理院团队开发的MAESTRO模型通过创新的数据融合策略，成功解决了多源卫星数据协调难题。该模型如指挥家般智能编排不同类型地球观测数据，在树种识别和农作物分割等任务中显著提升准确率，为环境监测、农业生产和城市规划提供强有力技术支撑，展现了AI协调异构数据的巨大潜力。

Google

谷歌

开发者

短剧

2025-08-19

对话谷歌副总裁Karen Teo：“短剧”“AI应用”现象级出海，我们看到中国开发者的三种内核

在谷歌亚太区全球商务拓展副总裁Karen Teo看来，这股创新脉搏，也能从过去一年中国开发者在全球市场两条最醒目的增长曲线看出：一条是“短剧”，另一条是“AI应用”。

图神经网络

自我解释AI

医疗人工智能

2025-08-19

帝国理工学院开发X-Node：图神经网络首次实现"自我解释"，让AI医疗诊断不再是黑匣子

帝国理工学院开发的X-Node框架首次实现图神经网络的自我解释功能，让AI系统中的每个节点都能像医生一样解释自己的诊断思路。该技术通过内置推理模块和自然语言生成，为医疗AI的"黑匣子"问题提供了革命性解决方案，在保持诊断准确性的同时大幅提升了系统的可信度和透明度。

人工智能

深度学习

超越人类预测

2025-08-19

史丹佛AI突破：一秒钟预测十年后——机器学习中的超越人类能力边界探索

史丹佛大学AI实验室的突破性研究显示，机器学习模型在复杂时间序列预测任务中展现出超越人类专家的能力。研究涵盖金融、气候、生物三大领域，AI预测准确率比人类专家高出15-25%，处理速度从几天缩短至几秒。这一发现不仅颠覆了对AI能力边界的认知，更为医疗、环保、商业等领域的决策革新开辟了广阔前景，标志着人机协作新时代的到来。

首个生成全身数字人的超级AI模型！斯坦福等顶尖高校联手，让静态照片瞬间"活"起来

人工智能

计算机视觉

深度学习

2025-08-19

首个生成全身数字人的超级AI模型！斯坦福等顶尖高校联手，让静态照片瞬间"活"起来

斯坦福大学等顶尖机构联合研发的MegaPortrait技术实现重大突破，首次让单张静态照片生成高质量全身动态视频成为现实。该技术通过创新的AI架构，能够从一张照片中推断人物特征并生成自然流畅的动作和表情，在视频质量、处理速度和身份一致性方面都超越了传统方法，为教育、娱乐、商业等领域带来革命性应用前景。

人工智能

深度学习

多模态技术

2025-08-19

当AI开始从声音就能"看出"你的样子：复旦团队揭秘音频重建人像的神奇技术

复旦大学研究团队开发出突破性AI技术，能够仅通过声音重建说话者面部图像。该技术基于声音特征与面部结构的生理关联，使用多层深度学习系统实现声音到图像的精确映射。测试显示生成图像与真实面孔高度相似，在执法、娱乐、医疗等领域具有广阔应用前景，同时也带来隐私保护等伦理挑战。

多模态AI学会了自己"动手"：清华、科大携手Kwai发布会自主编程处理图像的智能助手

多模态大语言模型

代码生成

强化学习

2025-08-19

多模态AI学会了自己"动手"：清华、科大携手Kwai发布会自主编程处理图像的智能助手

清华、中科大联合Kwai团队开发的Thyme系统实现了多模态AI的重大突破，让AI模型具备了自主编写代码处理图像和进行数学计算的能力。通过创新的两阶段训练策略和GRPO-ATS算法，Thyme在近20个评测基准上都表现出显著性能提升，特别是在高分辨率图像处理和复杂推理任务中表现突出，代表了AI从被动"看图说话"向主动"动手解决问题"的重要转变。

人工智能

学术搜索

信息检索

2025-08-19

中科院软件所首创"论文树状图书馆"：让科研搜索像点餐一样精准到位

中科院软件所开发的PaperRegister系统通过分层索引技术革新学术论文搜索，将传统基于摘要的粗粒度检索升级为支持技术细节的精细化搜索。该系统为每篇论文建立树状信息结构，从概况到具体实现细节分层组织，配合智能视角识别器精准理解用户查询意图。实验显示在细粒度搜索中准确率提升22.6%，响应时间仅2.5秒，为科研信息检索提供了突破性解决方案。

3D动画制作

自动骨骼绑定

视频引导动画生成

2025-08-19

南洋理工大学最新突破：让静态3D模型"活"起来，自动骨骼绑定与动画生成技术

南洋理工大学研究团队开发了名为Puppeteer的自动化系统，可将静态3D模型转换为完整的动画资产。该系统包含自动骨骼生成、智能皮肤绑定和视频引导动画制作三大核心功能，基于5.94万个高质量样本的大规模数据集训练。相比传统需要数周的手工制作，Puppeteer可在约30分钟内完成整个流程，在多项指标上显著超越现有方法，为3D内容创作的智能化转型提供了重要技术突破。

人工智能

图像生成

动画制作

2025-08-19

香港中文大学团队让AI成为卡通制作神器：一张图加几笔线稿就能生成完整动画片

香港中文大学等机构联合研发的ToonComposer系统实现了动画制作的重大突破，仅需一张彩色图片和几张线稿草图即可自动生成完整卡通动画。该系统通过稀疏草图注入机制和空间低秩适配器技术，将传统的中间帧绘制和上色工作整合为统一的"后关键帧制作"阶段，大幅提升制作效率。实验显示其在视觉质量和动作连贯性等指标上显著超越现有方法，为动画产业的智能化发展开辟新路径。

3D重建

流式处理

实时计算

2025-08-19

新加坡南洋理工大学重新定义3D重建：像智能手机看视频一样理解三维世界

新加坡南洋理工大学研究团队开发的STREAM3R系统革命性地改变了3D重建方式，采用流式处理技术像阅读故事一样按序处理图像，而非传统的同时处理所有图像。该系统实现每秒12-33帧的实时处理速度，准确度高达94.7%，特别擅长处理动态场景，为自动驾驶、机器人导航和虚拟现实应用开辟了新可能。

人工智能

扩散模型

语言生成

2025-08-19

阿里巴巴发布最强语言模型挑战者：扩散模型能否颠覆ChatGPT？

阿里巴巴AI实验室发布扩散语言模型综述，揭示了一种可能颠覆ChatGPT的新技术。该技术采用并行生成方式，不再逐词生成文本，而是像画家作画般同时处理多个位置，实现数倍速度提升。最新模型LLaDA-8B性能已接近LLaMA3-8B，在代码生成、数学推理等任务中表现优异，预示着AI对话系统的重大变革即将到来。

日本大阪大学和捷克技术大学联合研究：CLIP能"读出"你的相机型号？揭秘AI模型中隐藏的图像痕迹

计算机视觉

视觉编码模型

模型偏差

2025-08-19

日本大阪大学和捷克技术大学联合研究：CLIP能"读出"你的相机型号？揭秘AI模型中隐藏的图像痕迹

日本大阪大学和捷克技术大学研究发现，CLIP等AI视觉模型能从图像中识别相机型号、压缩方式等技术细节，准确率超80%。这种能力会影响模型对图像语义的判断，导致检索和识别结果出现偏差。研究分析了47种模型，发现视觉语言模型最敏感，自监督模型相对较好。团队还发现训练时使用数据增强技术可降低这种敏感性，为改进模型提供了方向。

人工智能

差分隐私

后验解释性

2025-08-19

慕尼黑工业大学重磅发现：AI隐私保护与解释性能否双全？

慕尼黑工业大学研究团队首次系统性探讨了AI系统中隐私保护与解释性之间的关系，发现两者并非完全对立。通过对三种差分隐私方法和四种解释技术的大规模实验，研究证明在特定条件下适度隐私保护可提升解释质量，并提出了实用的平衡策略和"甜蜜点"配置方案。

StepFun团队发布NextStep-1：让机器像人类一样逐步生成图像的新突破

人工智能

自回归模型

图像生成

2025-08-19

StepFun团队发布NextStep-1：让机器像人类一样逐步生成图像的新突破

StepFun团队发布的NextStep-1代表了AI图像生成领域的重要突破，采用自回归方式逐步生成图像，像艺术家作画般一点点构建视觉内容。这个14B参数的模型在多项测试中表现优异，不仅能高质量生成图像，还具备强大的编辑能力，为AI创作工具的发展开辟了新方向。

腾讯WeChat AI团队重磅推出PRELUDE：一个真正需要"读懂故事"才能解题的AI评测基准

人工智能

长文本理解

模型评测

2025-08-19

腾讯WeChat AI团队重磅推出PRELUDE：一个真正需要"读懂故事"才能解题的AI评测基准

腾讯WeChat AI团队联合多所高校发布PRELUDE评测基准，这是首个专门测试AI长文本真实理解能力的评测系统。通过让AI判断虚构角色前传是否与原著一致，该研究发现现有先进AI模型在深度文本理解方面仍比人类低15个百分点以上，揭示了当前AI技术的根本性局限。

人工智能

强化学习

用户界面

2025-08-19

蚂蚁集团推出UI-Venus：让AI也能像人一样"看懂"并操作电脑界面

蚂蚁集团推出UI-Venus系统，这是一个能够仅通过屏幕截图就理解和操作用户界面的AI模型。该系统采用强化微调技术，在多个基准测试中达到业界最佳水平，其72B版本在界面识别任务上准确率达95.3%，在复杂的安卓操作任务中成功率达65.9%。研究团队还开发了创新的自进化轨迹对齐技术，显著提升了AI在多步骤任务中的规划能力，为智能化人机交互开辟了新途径。

Linkloud

GO global, BE global.

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: