最新文章第4页

2025-10-10

音乐创作新革命：上海AI实验室让你只需输入歌词就能生成完整歌曲

上海AI实验室等机构联合开发的SongGen系统实现了AI音乐生成的重大突破，能够在单一阶段同时生成人声和伴奏，用户只需输入歌词和描述就能创作完整歌曲。该系统提供混合和双轨两种生成模式，支持语音克隆功能，在多项评估中超越传统多阶段方法。研究团队还构建了包含54万样本的开源数据集，并将完整代码和数据公开发布，为AI音乐创作的民主化奠定基础。

Amazon首次公开无需运行环境训练网络安全AI的突破性方法

亚马逊AI实验室联合莫纳什大学开发的Cyber-Zero框架，首次实现了无需运行环境的网络安全AI训练。通过分析公开CTF解题报告，用双AI模型模拟真实解题过程，生成高质量训练数据。训练后的开源模型性能可媲美顶级商业模型，在成本效益上具有显著优势，为网络安全AI技术普及化提供了新路径。

耶鲁大学团队开发"虚拟细胞建筑师"：一台能独立设计生物实验的AI超级助手

这项研究开发了CellForge系统，通过多个AI专家协作自动化虚拟细胞建模全流程。系统在六种不同生物学场景测试中全面超越现有方法，预测误差最高降低40%，相关性提升20%。该技术将传统需要数月专家协作的工作压缩至几小时，成本从数千美元降至几美元，有望大幅降低科研门槛并加速生命科学发现。

南开大学团队破解AI视觉模型的"视觉负担"难题：让AI看图像时也能像人一样"瞄一眼就懂"

南开大学团队开发出GlimpsePrune技术，让大型视觉语言AI能像人类一样"瞄一眼"抓住图像重点。该技术通过智能筛选视觉信息，只保留7.4%相关内容就能维持100%回答准确性，大幅降低92.6%计算负担。不同于固定压缩的传统方法，GlimpsePrune能根据问题复杂度动态调整，简单任务保留3.6%信息，复杂场景保留30-40%，实现真正智能化适应，为AI视觉应用的普及奠定基础。

阿里巴巴发布Qwen-Image：让AI画出完美中文字的图像生成新时代

阿里巴巴Quen团队发布了图像生成模型Qwen-Image，在复杂文字渲染和精准图像编辑方面实现重大突破。该模型通过创新的数据处理流程和渐进式训练策略，不仅在英文文字渲染上表现出色，更在中文字符生成方面远超现有模型，准确率达到58.30%。同时具备多任务处理能力，可进行图像编辑、深度估计、新视角合成等操作，为AI图像生成技术开启新纪元。

阿里巴巴和上海交通大学联手打造的"3D侦探"：一张照片就能看透世界的三维秘密

Dens3R是一个革命性的3D视觉基础模型，能够仅从普通照片中同时提取深度、法线、点云等多种三维几何信息。通过创新的两阶段训练策略和共享编码器-解码器架构，系统在多个标准测试中取得了领先性能，特别是在处理高分辨率输入和复杂场景方面表现卓越。该技术在自动驾驶、增强现实、机器人导航等领域具有广泛应用前景，代表了三维计算机视觉的重要突破。

BITS Goa团队推出AlignGuard-LoRA：让AI安全微调不再左右为难的"防护盾"技术

BITS Goa团队联合Meta AI和Amazon AI开发的AlignGuard-LoRA技术，创新性地解决了AI微调过程中的安全性流失问题。该方法通过Fisher信息矩阵识别安全关键参数，将更新分解为安全维护和任务学习两个独立组件，并设计碰撞感知正则化防止组件干扰。实验显示，该技术能将安全漂移降低50%，同时保持任务性能不变。

AI革新制造业：产品力、品牌力与精益运营的三维进化论

制造业具有具体可感知的产品形态，这使得产品力与品牌力成为推动智能化升级的关键。同时，“研发、生产、供应、销售、服务”全链条的精益运营，也已成为制造业发展的必然趋势。

腾讯团队让AI学会在游戏中边玩边学：从"知道"到"会做"的智能飞跃

腾讯研究团队提出Think-In-Games（TiG）框架，成功解决大语言模型"知道但不会做"的核心问题。该方法通过让AI在《王者荣耀》游戏中实际互动学习，将强化学习与语言模型优势结合，使AI既能做出正确决策又能解释推理过程。实验显示14B参数小模型性能超越671B大模型，证明了专门化训练的有效性。

2025-10-10

AMD 锐龙嵌入式 9000 系列为工业计算与自动化带来下一代性能和效率

AMD 推出专为工业 PC、自动化系统和机器视觉应用打造的 Ryzen(TM)（锐龙）嵌入式 9000 系列处理器。

OPPO研究团队重新定义AI智能体：一个模型完成多智能体协作的Chain-of-Agents革命

OPPO AI团队提出Chain-of-Agents新范式，让单个大语言模型内在模拟多智能体协作，解决传统多智能体系统效率低、成本高的问题。通过多智能体蒸馏和强化学习训练的AFM模型在20个基准测试中创造新纪录，推理成本降低84.6%，为AI智能体发展指出全新方向。

动画角色也能秒变真人演员：同济大学团队让任何角色都能自由表演动作

同济大学研究团队开发的CharacterShot系统实现了突破性进展，仅需一张角色图片和动作序列即可生成高质量4D角色动画。该技术通过双重注意力机制和邻居约束4D高斯点云优化，解决了传统方法中姿态与视角分离建模的难题，将动画制作时间从数月缩短至20-40分钟，为内容创作、游戏开发、教育应用等领域提供了经济便捷的解决方案。

清华大学团队用异步强化学习让AI搜索智能突破十轮限制：每次能进行150万字的超长探索

清华大学研究团队开发的ASearcher系统通过全异步强化学习突破了AI搜索智能体的轮次限制，实现了超过40轮工具调用和15万字符生成的长视野搜索能力。该系统不仅设计了智能数据合成方法生成高质量训练样本，还在多个标准测试中显著超越现有开源方案，为AI搜索智能的发展提供了重要技术突破和开源贡献。

天工大学Matrix-3D团队发布突破性全景3D世界生成技术，让一张照片秒变可探索虚拟世界

Matrix-3D是天工大学等机构联合开发的突破性3D世界生成技术，能够从单张照片或文字描述创造出360度全方位可探索的虚拟3D世界。该技术采用全景表示法和场景网格渲染，提供快速和精细两种重建模式，在视觉质量和可探索范围方面显著超越现有方法，为游戏设计、影视制作、VR应用等领域开辟新可能。

阿里巴巴推出WebWatcher：一个能看图能思考的AI搜索助手，让信息查找像侦探破案一样智能

阿里巴巴通义实验室推出WebWatcher，这是首个能同时处理图片和文字的深度研究AI助手。它像数字侦探一样，能主动搜索网页、分析图片、执行计算，通过多步推理解决复杂问题。在多项基准测试中，WebWatcher显著超越GPT-4o等知名系统，特别是在需要跨模态信息整合的任务中表现突出，代表了AI助手向真正智能推理的重要进展。

Canva收购Leonardo.ai 加强生成式AI技术布局

Canva宣布收购生成式AI内容创作初创公司Leonardo.ai，交易条款未披露，但采用现金加股票的混合方式。Leonardo.ai的120名员工将全部加入Canva。Leonardo.ai成立于2022年，拥有1900万注册用户，其工具已创建超过10亿张图像。该公司将继续独立运营，专注于快速创新和研发。此次收购旨在帮助Canva扩展其Magic Studio生成式AI套件功能。

亚马逊Quick Suite：企业智能体AI的入门训练平台

亚马逊推出Quick Suite软件平台，旨在简化AI智能体和企业聊天机器人的创建过程。该平台支持50个企业级应用集成，包括Office 365、Slack等，提供无代码环境连接内部文档和数据源。平台包含Quick Flows自动化工具、Quick Research研究功能等组件。尽管降低了技术门槛，但AI智能体的准确性仍存疑虑，研究显示其办公任务错误率达70%。

忘记训练，在AI推理阶段寻找杀手级应用

大多数企业不会训练自己的AI模型，而是专注于将AI应用到生产环境和推理阶段。核心任务包括数据微调和管理。关键技术包括检索增强生成、向量数据库、AI提示重用和副驾驶功能，让用户能用自然语言查询企业信息。由于GPU硬件更新速度快且成本高昂，企业更倾向于租用云端GPU容量。真正的AI价值在于推理阶段快速整理数据并优化现有模型。

Infor推出行业专用AI智能体应对企业挑战

Infor发布新的行业专用人工智能智能体套件，声称通用AI工具未能提供商业价值。新的Infor行业AI智能体旨在自动化制造、分销和服务行业的运营工作流程。MIT研究显示，95%的企业未从生成式AI投资中获得价值。Infor将AI直接集成到微垂直领域的特定流程中，基于现有的行业流程目录构建。同时推出Leap云迁移计划，为本地ERP部署提供固定费用保障。

AMD股价本周飙升23.71%，受益于与OpenAI的高调合作。该协议将从2026年下半年开始为OpenAI提供1吉瓦计算能力，并给予OpenAI高达1.6亿股AMD普通股的期权。此举发生在OpenAI与英伟达签署1000亿美元协议两周后，标志着OpenAI向垂直整合计算、数据和模型训练的转变。通过同时押注AMD和英伟达，OpenAI正在供应商间制造竞价压力，确保竞争性定价的同时锁定供应稳定性，展现了其在AI基础设施领域的战略布局能力。

Linkloud

GO global, BE global.

PEC 2025 AI创新者大会

用AI，在数字身份验证风暴中心重构信任坐标

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: