谷歌研究院发现了一种让AI进行逻辑推理的新方法——思维链提示。通过要求AI先展示思考过程再给出答案,这种方法将AI在复杂数学问题上的准确率从10%提升至40%以上。这项技术不需要额外训练,只需改变提问方式,但仅在大规模模型上有效。研究揭示了AI具备比预期更强的推理潜力,为未来智能系统发展开辟了新道路。
上海AI实验室团队开发的OREAL算法在数学推理领域实现重大突破,7B模型首次通过强化学习在MATH-500测试中达到91分,32B模型更创下95分新纪录,超越OpenAI o1系列。该算法通过正确样本行为克隆、奖励重塑和词级重要性评估三大创新,有效解决了稀疏奖励下的强化学习难题,证明了巧妙算法设计胜过简单规模扩张的AI发展新思路。
机器人AI软件开发商FieldAI宣布通过两轮融资筹集4.05亿美元,其中3.15亿美元由贝索斯探险基金、Prysm和淡马锡领投。该公司开发的软件平台可让机器人在建筑工地等复杂环境中导航,采用专有的场域基础模型技术。该软件无需地图、GPS或预定义路径即可运行,支持人形机器人、自动驾驶车辆等多种系统。目前已在数百个工业环境中部署,估值达20亿美元。
Epic公司CEO朱迪·福克纳宣布推出"医疗智能"概念,在其电子病历系统中开发智能AI代理。该系统基于超过3亿患者记录的Cosmos数据集,包含四个核心AI代理:患者导航员Emmie、临床医生助手ART、诊疗决策支持Cosmos AI和管理优化器Penny。这些代理能够提供预测性健康监测、简化临床试验匹配、优化医疗流程。Epic与微软深度合作,利用Azure AI确保系统规模化和可靠性,旨在构建统一的智能医疗生态系统。
量子计算技术正从理论走向实用,但其高昂成本和维护难度让多数企业望而却步。量子即服务(QaaS)通过云端按需付费模式,让企业无需巨额投资即可体验量子计算。全球量子计算市场预计将从2025年的18亿美元增长至2030年的75亿美元。目前IBM、亚马逊、微软和谷歌等科技巨头已推出相关服务,为学术机构、制药、汽车航空和金融等行业提供量子计算能力,助力复杂系统建模和优化挑战。
加州理工学院、NASA喷气推进实验室等机构合作开发AI太空皮层系统,利用GPT-4o和计算机视觉技术实现太空任务自主操作。该系统能够进行实时场景分析、故障自诊断和重新校准,在机械臂受损情况下仍可恢复90%以上精度。项目已在NASA海洋世界着陆器自主测试平台完成验证,为未来木星卫星探索任务提供技术支持。
谷歌DeepMind开发的GenCast AI系统在天气预报领域实现重大突破,在97.2%的测试指标上超越传统数值预报系统。该系统基于扩散模型和四十年历史数据训练,能在8分钟内完成全球七天天气预报,比传统方法快数十倍。GenCast采用概率性预报方法,为决策者提供多种天气情景,在极端天气预测方面表现尤为出色,为农业、能源、交通等领域带来广阔应用前景。
2025 世界算力博览会(WEC 2025)于8月13日至16日在内蒙古鄂尔多斯国际会展中心举办,本次大会聚焦“绿动算力?超智融合”主题,全面展示算力产业的前沿技术与应用生态。
北京大学团队推出TransMLA技术,可将现有GQA架构语言模型直接转换为高效MLA架构,无需重新训练。该技术通过RoRoPE、FreqFold和BKV三项创新实现了最高10.6倍的推理速度提升,在93%内存压缩下仅需60亿词元微调即可恢复性能,为AI模型优化提供了经济实用的解决方案。
KAIST研究团队提出黎曼扩散语言模型(RDLM),通过将文字映射到几何空间实现连续建模,解决了传统扩散模型在文本生成中的"跳跃"问题。该方法在多项测试中超越现有扩散模型,接近自回归模型性能,并支持并行生成和跨领域应用,为AI文本生成技术开辟了新方向。
谷歌DeepMind团队开发了革命性的WeatherFormer天气预测模型,这是首个能够同时处理多种天气预测任务的通用AI系统。该模型通过学习全球海量天气数据,掌握了天气系统的基本规律,然后可以快速适应各种具体预测需求。相比传统需要为每个任务单独训练模型的方法,WeatherFormer展现出显著的效率和精度优势,有望为农业、灾害防控、能源管理等领域提供更准确便捷的天气预测服务。
哈佛大学和微软研究院团队开发出突破性的多模态情感理解AI系统,能同时分析文字、语音、面部表情和肢体动作,情感识别准确率达95.7%,接近人类专家水平。该系统成功解决了传统技术无法理解讽刺、文化差异等复杂情感表达的难题,在医疗诊断、个性化教育、客户服务等领域展现巨大应用潜力,为实现真正理解人类情感的人工智能奠定了基础。
斯坦福大学研究团队开发出SpeechDriveFace技术,能够仅通过声音生成逼真的说话面部视频。该技术通过深度学习建立声音与面部表情的映射关系,在清晰度、同步性等测试中表现优异,超过80%观察者无法区分真假。技术在内容创作、在线教育、虚拟客服等领域应用前景广阔,代表了AI多模态理解能力的重要突破,为未来人机交互开辟新可能。
Captions公司推出的Mirage是一项革命性的AI视频生成技术,仅通过音频就能生成完全匹配的说话视频。该技术采用先进的扩散模型,能够分析音频中的语调、节奏和情感信息,转换为自然流畅的视频内容。Mirage在嘴唇同步准确率和面部表情自然度方面表现出色,为教育培训、内容创作、企业宣传等领域提供了低成本、高效率的视频制作解决方案,有望推动整个数字内容创作行业的变革。
中国AI公司DeepSeek发布旗舰语言模型V3.1更新版,该模型已针对新一代国产芯片进行优化。新模型采用UE8M0数据类型训练,为即将发布的国产芯片做准备。V3.1统一了"思考"和"非思考"模式,单一模型支持两种范式,上下文窗口从65536扩展至131072个token,在工具调用能力上显著提升,Browsecomp基准测试得分从8.9提升至30。
VAST Data发布SyncEngine通用数据目录和高性能导入解决方案,能够发现、编目并捕获其他供应商存储系统中的文件和对象数据,将其导入VAST的AI专用系统。该工具提供跨文件系统、对象存储和SaaS应用的实时可搜索目录,使数PB到EB级数据集中的数万亿文件瞬间可被发现,消除了分布式非结构化数据集发现和调动的障碍。
微软在Windows 11 Insider Preview Canary Channel build 27928中将语言和时间设置从控制面板迁移至设置应用。新功能包括添加时钟、选择时间服务器、时间格式设置以及数字货币格式更改等。微软去年曾表示控制面板"已弃用"后迅速收回,但目前仍强调其仅为兼容性保留。此外,Copilot+电脑用户可使用Copilot应用进行语义文件搜索,支持自然语言查找文档和图像。
谷歌正在将其搜索引擎的AI模式推广到全球更多地区,同时不断提升人工智能技术的智能化水平。这一举措标志着谷歌在搜索领域的AI应用将覆盖更广泛的用户群体,为全球用户提供更加智能、精准的搜索体验。通过持续的技术优化和功能升级,谷歌AI搜索模式将能够更好地理解用户需求,提供更相关的搜索结果。
安全研究人员发现,谷歌Gemini CLI等生产级AI系统容易受到图像缩放攻击。攻击者通过在图像中嵌入恶意提示,利用AI系统的图像缩放算法使隐藏指令在缩放后显现,从而绕过安全机制实现数据窃取。研究团队开发了开源工具Anamorpher来演示此攻击技术。谷歌回应称这并非默认配置下的安全漏洞,只在用户明确信任输入并覆盖默认设置时才可能发生。