最新文章第37页

2025-08-01

AIRI研究院：让AI看图更高效，一半图像特征就够用了

这项由莫斯科人工智能研究院完成的研究证明了AI可以通过智能特征选择在保持性能的同时大幅提高效率。研究团队开发了基于自编码器和Gumbel-Softmax的特征筛选方法，在文字识别任务中即使删除50%视觉特征也能维持近似性能，为多模态AI系统的效率优化提供了新思路。

AI语言生成迎来重大突破：康奈尔团队推出"块扩散"模型，让机器既能快速写作又能精确表达

康奈尔科技学院研究团队开发出突破性的"块扩散"AI语言模型，巧妙结合自回归和扩散模型优势，实现了既快速又准确的文本生成。该技术支持任意长度文本创作，生成速度显著提升，在标准测试中创下扩散模型新纪录，为AI写作助手和对话系统开辟了新的发展路径。

2025-08-01

亚马逊云科技AI联赛：在全新终极 AI 对决中学习、创新和竞争

自 2018 年以来，AWS DeepRacer 已吸引全球超过 56 万名开发者参与，充分印证了开发者可以通过竞技实现能力成长的实践路径。如今，亚马逊云科技将通过亚马逊云科技AI联赛，将这一模式继续拓展至生成式 AI 时代。

Testin 云测引领AI测试变革：从工具辅助到智能主导的代际升级

在软件定义世界的今天，AI 与软件工程的融合正重塑测试行业格局。中国人工智能产业发展联盟发布的《AI4SE 行业现状调查报告（2024 年度）》显示，65.75% 的企业软件研发智能化成熟度已达 L2 及以上水平，标志着 AI 技术在软件工程领域从概念验证迈向规模化落地。

AI“变身”运维“老师傅” 施耐德电气用30年OT积累打造更“懂行”的“楼宇智能体”

施耐德电气携EcoStruxure(TM) Building GPT亮相WAIC 2025。

数智世界津门有为｜华为中国行2025·天津新质生产力城市峰会成功举办

以“数智世界津门有为”为主题的“华为中国行2025·天津新质生产力城市峰会”成功举办。

阿联酋顶尖AI大学打造"万能语音助手"：30M参数让任何大模型瞬间开口说话

阿联酋穆罕默德·本·扎耶德人工智能大学研究团队开发出轻量级语音合成系统LLMVoX，仅用3000万参数就能让任何大语言模型获得流式语音输出能力。该系统实现475毫秒超低延迟，词错误率仅3.7%，支持多语言扩展，可与视觉语言模型集成，为AI语音交互提供了"即插即用"的革命性解决方案。

Google DeepMind发布高精度地球AI模型AlphaEarth

谷歌DeepMind发布AlphaEarth Foundations AI模型，能处理每日数TB卫星数据追踪地表变化。该模型如"虚拟卫星"般将全球陆地和沿海水域映射为数字表示，帮助科学家监测食品安全、森林砍伐、城市扩张等关键问题。模型整合光学卫星图像、雷达、激光测绘等数据源，以10×10米精度追踪变化，错误率比其他模型低24%。

这11种情况下千万别用ChatGPT

ChatGPT虽然是目前最受欢迎的AI聊天机器人，但它并非万能。文章指出11个不应该使用ChatGPT的场景：诊断健康问题、处理心理健康、紧急安全决策、个人财务税务规划、处理机密数据、违法行为、学术作弊、监控实时信息、赌博预测、起草法律文件以及创作艺术。AI可能产生错误信息、缺乏实时数据更新，在高风险场景下可能造成严重后果。用户应了解其局限性，在关键决策时寻求专业帮助。

ServiceNow瞄准"数据地狱"，布局商业智能领域

ServiceNow正构建数据基础架构支持AI智能体应用，解决企业AI部署的最大障碍"数据地狱"。公司推出三大核心组件：AI原生数据库RaptorDB、工作流数据结构Workflow Data Fabric，以及收购的数据目录平台Data.world。该公司还推出AI控制塔提供统一管理，并计划扩展商业智能分析领域，挑战传统BI厂商。

数据中心运营商可持续性数据收集出现倒退趋势

Uptime Institute最新调查显示，数据中心运营商在可持续发展数据收集方面出现停滞甚至倒退趋势。尽管能耗和电源使用效率仍是最常追踪的指标，但收集这些数据的运营商比例已从2024年的89%和76%分别下降至84%和74%。调查涵盖800家数据中心业主和运营商，发现除欧洲地区水资源使用数据收集有所增长外，其他可持续发展指标的数据收集普遍下滑。

清华大学团队打造超级机器人管家：一个会自己"思考"的全能型人形机器人诞生了！

清华大学团队开发出革命性人形机器人系统Being-0，具备类人思维能力。该系统采用创新的"三层大脑"架构：顶层基础模型负责理解指令和制定策略，中间层连接器模块负责将计划转化为具体动作，底层技能库负责执行各种操作。机器人能够理解自然语言，自主规划复杂任务如制作咖啡，并在动态环境中灵活调整策略，在长期任务中达到84.4%的成功率。

SEAP：让大语言模型像人脑一样"聪明偷懒"的训练免费神经网络修剪技术——中国人民大学和上海高级算法研究院联合研究

中国人民大学和上海高级算法研究院联合开发的SEAP技术，通过模仿人脑按需激活不同区域的工作方式，让大语言模型能够根据任务类型智能选择相关神经元，实现"聪明偷懒"。该技术在保持97.8%原始性能的同时，将推理速度提升48-52%，为AI模型在普通设备上的高效部署提供了创新解决方案。

YuE：能创作五分钟完整歌曲的AI音乐家诞生了，香港科技大学开发的开源音乐生成模型震撼发布

香港科技大学研究团队开发出首个开源长篇音乐生成模型YuE，能根据歌词创作5分钟完整歌曲。该系统采用双阶段架构和轨道解耦技术，在人工评估中与商业系统性能相当，支持多语言创作和风格转换，为音乐创作民主化奠定基础。

Azure AI Speech升级：仅需几秒音频即可生成逼真语音克隆

微软升级了Azure AI Speech服务，用户仅需几秒钟的语音样本即可快速生成逼真的语音复制品。该个人语音功能于2024年5月21日正式发布，采用名为"DragonV2.1Neural"的零样本文本转语音模型，支持100多种语言。微软表示新版本在语音自然度、韵律稳定性和发音准确性方面都有显著提升，可用于定制聊天机器人语音、视频配音等应用。尽管微软要求用户遵守使用政策并获得原说话者同意，但该技术仍可能被恶意使用。

多语言AI模型

层扩展技术

开源大语言模型

2025-08-01

阿里巴巴DAMO院推出Babel：让90%全球人口都能用上的多语言AI大模型

阿里巴巴DAMO院推出开源多语言大模型Babel，支持全球25种主要语言，覆盖90%世界人口。采用创新的层扩展技术而非传统继续训练，推出9B和83B两个版本。在多语言任务评估中表现出色，83B版本接近GPT-4o性能，特别关注印地语、孟加拉语等被忽视的大语言群体，推动AI技术的包容性发展。

人工智能

强化学习

图形用户界面

2025-08-01

GUI界面上的智能助手：vivo和香港中文大学让机器人学会像人类一样操作手机

vivo和香港中文大学的研究团队开发了UI-R1系统，首次将强化学习技术应用到图形界面操作中。该系统仅用136个训练样本就能让AI学会操作手机、电脑界面，在跨平台测试中表现优异，为智能设备交互开辟了高效的新路径。

生成式游戏引擎

交互式视频生成

AI游戏开发

2025-08-01

港科大联手快手：视频生成模型将彻底重塑游戏开发，每个人都能成为游戏设计师

香港大学、香港科技大学与快手科技联合发布开创性研究，提出用交互式生成视频（IGV）技术构建下一代游戏引擎，将彻底改变游戏开发模式。该技术能实时生成无限游戏内容，让每个人都能成为游戏设计师，解决传统游戏内容有限、成本高昂、缺乏个性化等根本问题，为游戏产业描绘了一个充满想象力的未来。

新加坡国立大学推出IPV-BENCH：首个专门评估AI视频模型处理"不可能场景"的基准测试

人工智能

视频生成

基准测试

2025-08-01

新加坡国立大学推出IPV-BENCH：首个专门评估AI视频模型处理"不可能场景"的基准测试

新加坡国立大学研究团队开发了IPV-BENCH，首个专门评估AI视频模型处理"不可能场景"能力的基准测试平台。研究发现，当前最先进的AI视频模型在生成和理解违反物理定律、生物规律等不可能场景时表现不佳，最好的生成模型成功率仅37.3%，理解模型在时间推理方面尤其困难，揭示了AI技术在创造力和复杂推理方面的重大局限性。

多模态推理

强化学习

视觉推理

2025-08-01

上海AI实验室团队突破视觉推理难题：让AI也能像人类一样"看图解题"

上海AI实验室团队开发的MM-Eureka突破了多模态视觉推理难题，这是一个能同时理解图像和文字并进行复杂推理的AI系统。通过创新的强化学习训练策略和高质量的MMK12数据集，MM-Eureka不仅在数学推理上表现出色，还展现出惊人的跨学科推理能力，在物理、化学、生物等领域都有优异表现，性能接近OpenAI的o1模型。研究团队将所有成果完全开源，为AI研究社区提供了宝贵资源。

于游的碎碎念

技术分享，生活分享，基本上想发啥就发啥

用AI，在数字身份验证风暴中心重构信任坐标

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: