上海AI实验室开发的VLAC模型让机器人首次具备真实世界自主学习能力。该系统如同给机器人配备智能导师,能实时评估动作效果并从中学习。在四个操作任务测试中,机器人成功率从30%提升至90%,仅需200次练习。技术结合视觉、语言理解和动作生成,支持跨场景适应和人机协作,为家庭服务、医疗护理等领域应用奠定基础。
台湾大学研究团队通过大规模人类听觉测试,首次系统评估了五个主流AI语音系统对自然语言指令的理解准确度。研究发现GPT-4o-mini-TTS在程度副词和情感强度控制方面表现最佳,但所有系统在年龄模仿和重音控制上都存在明显不足,普遍倾向于生成成年人声音,揭示了当前AI语音技术在精细控制方面的局限性。
康卡斯特和UCL研究团队开发了WhisTLE技术,解决语音识别模型在新领域适应中只能依赖昂贵语音数据的问题。该方法通过训练变分自编码器模拟语音编码器输出,实现仅用文本进行深度监督适应。实验显示平均降低12.3%词错误率,且推理时无额外计算成本,为跨域语音识别提供了高效实用的解决方案。
复旦大学团队开发出Ask-to-Clarify机器人框架,让机器人首次具备主动询问澄清模糊指令的能力。该系统采用双组件架构和两阶段训练策略,在8项真实任务中全面超越现有技术,成功率达90-98%。这一突破将机器人从被动执行者转变为主动合作伙伴,为家庭服务机器人的实用化扫清重要障碍。
苹果公司发布突破性AI模型Manzano,首次实现单一模型同时具备图像理解和生成能力。该模型采用创新的混合视觉标记器设计,通过统一的语义空间有效解决了传统多模态模型中理解与生成任务的冲突问题。在多项基准测试中,Manzano不仅达到了专门化模型的性能水平,还展现出优异的规模化效应和实用性。
伊利诺伊大学团队开发出ROS-Cam系统,仅需普通RGB视频即可精确重建动态三维场景,无需激光雷达等额外传感器。该技术通过补丁式追踪过滤器、异常值感知优化和两阶段策略,在多个数据集上超越现有方法,处理速度提升2-12倍。这项突破有望让普通用户轻松创建专业级三维内容,在电商、教育、文化保护等领域具有广阔应用前景。
小米研究院推出的BTL-UI是一个革命性的GUI智能代理框架,通过模拟人类"眨眼-思考-执行"的认知过程,让AI能够像人类一样自然地操作各种应用界面。该技术在多个基准测试中实现了显著性能提升,为未来的人机交互和自动化应用奠定了重要基础。
Y Combinator合伙人Ankit Gupta与Anthropic预训练负责人Nick Joseph最近进行了一次深度对话。
NBA中国将利用阿里云的人工智能和云计算服务,支持一系列数字球迷互动计划。双方将基于阿里巴巴通义千问大模型,开发一个专属AI模型。
9月13日的PEC 2025 AI创新者大会暨第二届提示工程峰会上,“年度提问二:新工作时代:AI工作流由谁主导?”从企业实践到技术实现、从业务落地到战略决策,展开了一场高密度的思想碰撞与经验分享,将AI工作流背后的难题和解决路径彻底揭开。
在9月13日召开的“PEC 2025 AI创新者大会暨第二届提示工程峰会”上,一场主题为“新创意时代,AI如何定义‘第十艺术’?”的圆桌对话引发了热烈讨论。至顶AI实验室联合主理人路飞携六位数字艺术家与AI创业者,围绕AI在艺术中的角色、价值与未来展开了一场深度对谈。
土耳其伊斯坦布尔Newmind AI团队开发出首个专门针对土耳其语的AI幻觉检测系统Turk-LettuceDetect,能够逐字识别AI生成内容中的虚假信息。该系统使用三种不同的AI模型,在包含17790个样本的数据集上训练,最佳模型达到72.66%的检测准确率。这项研究填补了土耳其语AI安全检测的空白,为8000万土耳其语使用者提供了更可靠的AI交互体验。
法国研究团队开发了"推理核心"训练环境,专门培养AI的基础推理能力。该系统包含18个核心任务,涵盖逻辑推理、规划、因果分析等领域,能无限生成新题目并精确控制难度。与传统依赖固定题库的方法不同,推理核心专注于培养通用认知能力,并使用专业工具验证答案。GPT-5测试显示任务具有挑战性,为AI推理能力发展开辟新路径。
阿里巴巴Qwen团队发布的Qwen3-Omni实现了AI领域的重大突破,首次让单一模型在文字、语音、图像、视频处理上都达到专业水平,无任何性能损失。该系统支持119种文字语言,实时对话延迟仅234毫秒,在36项测试中32项达到开源最佳。采用创新的"思考者-表达者"架构和多码本流式生成技术,为真正智能的多模态AI助手奠定了基础。
字节跳动研究团队开发出革命性的ByteWrist并联机器人手腕,采用三层嵌套驱动机制和弧形连接杆设计,体积比传统手腕减少40%,承载能力提高60%。在狭窄空间操作测试中,搭载ByteWrist的机器人比传统Kinova机器人快一倍,成功完成116小时的衣物整理数据收集,展现出卓越的灵活性和拟人化特征,为家庭服务、医疗和精密制造等领域提供了新的解决方案。
新型单通道驱动器采用2.5 kV电容隔离技术,可提升功率密度、加快开关速度、增强电机驱动器、逆变器及工业电源的可靠性。
Scale AI团队推出SWE-Bench Pro测试平台,专门评估AI编程助手在真实企业级软件开发中的表现。研究发现,即使是最先进的GPT-5和Claude模型,成功率也仅有23%左右,远低于在传统测试中70%的表现。该测试平台包含1865个来自真实企业的复杂编程任务,要求修改多个文件和大量代码,为AI编程能力提供了更严格的现实检验。
微软团队开发的EdiVal-Agent是首个针对AI图像编辑的自动化评估系统,能像专业评委一样从指令遵循、内容一致性和视觉质量三维度评分。该系统与人类评审一致性达81.3%,测试发现Nano Banana表现最均衡,GPT-Image-1指令遵循最佳但一致性不足,大多数模型在数量变化任务中成功率低于25%。
中大深圳团队创建MatCha测试平台,评估15个先进AI模型在材料显微图像理解方面的能力。结果显示,即使是最优秀的GPT-4模型准确率也仅59%,远低于人类专家的89%。研究揭示AI在专业领域存在知识缺乏和视觉感知不足的重大局限,为AI专业化发展提供重要参考。
Meta研究团队推出RecoWorld,这是首个专为智能推荐系统打造的虚拟训练环境。该系统通过虚拟用户与推荐系统的多轮对话互动,让算法在安全环境中学习理解和响应用户指令。RecoWorld支持文本、多模态和语义编码三种内容处理方式,能够模拟真实的用户行为和社交互动,为推荐系统的训练和评估提供了全新的解决方案,有望显著改善未来的个性化推荐体验。