微软研究院推出SambaY架构,通过创新的门控记忆单元实现AI推理速度10倍提升。该技术采用解码器-混合-解码器设计,在数学推理等复杂任务上表现卓越,为高效AI推理开辟新方向,有望推动AI在教育、科研、医疗等领域的广泛应用。
近日,CoDesign 2025国际研讨会在日本大阪成功举办。本次大会由田纳西大学图灵奖得主杰克·唐加拉(Jack Dongarra)院士、中国科学院计算技术研究所孙凝晖院士与大阪大学刘丽君教授共同发起,吸引了来自世界各地的专家学者齐聚一堂,围绕极大规模计算与大数据挑战下的软硬件协同设计展开深入探讨,为全球高性能计算发展注入新动能。
Dfinity基金会发布Caffeine AI平台,通过自然语言提示创建功能完整的应用程序,旨在将全球开发者数量从5000万扩展到50亿。该平台基于区块链技术,用户可通过对话方式快速构建应用,包括博客和电商网站等。与Anthropic合作提供后端支持,挑战传统应用商店模式。
社交媒体巨头Meta开发了一个AI模型来创造新型混凝土配方,并将其中一种应用于新数据中心的地面浇筑。该模型采用贝叶斯优化技术预测不同混凝土配比的抗压强度曲线,显著加速了传统需要数天或数周的测试过程。Meta与建筑公司Amrize和伊利诺伊大学合作,在明尼苏达州罗斯蒙特数据中心使用了这种新型低碳混凝土。该设施初期功率为10兆瓦,未来将扩展至75兆瓦。
Slack宣布其AI助手现在能够理解和解释公司内部的专业术语和行话。这项新功能旨在帮助员工更好地理解企业沟通中的专业词汇,提高工作效率和团队协作。该AI系统能够学习并识别特定组织的语言习惯和专业用词,为用户提供准确的术语解释和上下文理解。
Adobe发布了一款全新的人工智能工具,能够将各种简单的噪音和声音转换成逼真的音频效果。这项技术突破性地简化了音频制作流程,用户只需发出基本的声音,AI就能自动生成高质量的音效。该工具将大幅提升音频内容创作的效率和便利性。
近年来Android手机普遍搭载AI功能,厂商试图通过AI差异化竞争。然而研究显示,用户升级手机时仍优先考虑价格、电池续航、存储和相机,而非AI功能。由于谷歌Gemini已内置于大多数Android设备,各厂商的AI功能往往只是在现有软件基础上添加花哨特性。虽然三星Galaxy AI等产品占据先发优势,但最终所有功能都指向Gemini。真正的差异化竞争仍在苹果与谷歌之间展开。
瑞士EPFL研究团队开发的PERK方法通过参数高效的测试时学习技术,让AI能够像人类一样将长文档信息编码到专门的记忆模块中,显著提升了长上下文推理能力。该方法在多项测试中表现卓越,不仅能处理比训练时长32倍的文档,还解决了传统AI的位置偏见问题,为处理复杂长文档提供了创新解决方案。
这项研究开发了VIDEO-RTS系统,仅用传统方法3.6%的训练数据就让AI学会了真正的视频推理能力。系统采用"纯强化学习"跳过死记硬背阶段,结合"稀疏到密集"的自适应推理策略,在五个权威测试中平均准确率提升2.4%。这一突破性进展可能改变AI视频理解的发展方向。
约翰斯·霍普金斯大学研究团队开发出能够自主完成胆囊切除术的手术机器人系统SRT-H。该系统采用分层决策架构,具备自我纠错能力,在8次完整手术测试中实现100%成功率。系统通过观看16000个手术轨迹学习,能够像人类医生一样观察、判断和纠错,代表了手术机器人向真正自主化迈出的重要一步。
UCLA研究团队发现现有AI毒性检测系统存在重大缺陷:在判断网络言论是否有害时,往往忽略了真正受影响群体的声音。研究构建了ModelCitizens数据集,包含6822个帖子和4万个标注,区分群体内外标注者意见。结果显示群体内外标注者在27.5%帖子上存在分歧,基于群体内部观点训练的新模型比现有系统准确率提高5.5%。
香港浸会大学等机构联合开发的AdamMeme框架,通过多AI智能体协作,能够动态生成个性化测试样本来评估AI模型理解网络表情包恶意内容的能力。该框架突破了传统静态评估的局限,针对每个模型的弱点进行深度探测,实验显示即使是GPT-4o等顶级模型也存在认知盲点,为AI安全评估提供了新思路。
伊利诺伊大学研究团队发现AI在多模态推理中存在严重的视觉理解缺陷,67%的错误源于对图像信息的误解。他们开发了PAPO方法,通过图像遮挡技术强迫AI真正使用视觉信息,实现了4.4%的性能提升。这项研究对AI在教育、医疗、自动驾驶等领域的可靠应用具有重要意义。
这项研究通过训练72个不同配置的模型,系统分析了混合线性注意力架构的设计原则。研究发现独立表现最佳的线性注意力机制在混合架构中未必最优,并识别出选择性门控、分层递归和控制性遗忘是成功混合架构的三大关键要素。结果表明,采用3:1到6:1的线性与全注意力比例能够在保持性能的同时将内存使用量减少4-7倍。
清华大学团队发布AutoTriton,这是首个专门用于Triton编程的AI模型,通过创新的两阶段训练方法——监督微调与强化学习相结合,让普通程序员也能轻松编写高性能GPU内核代码。尽管只有80亿参数,但在权威基准测试中表现媲美千亿级大模型,有望大幅降低GPU编程门槛。
上海交通大学研究团队构建了迄今最大的人体动作数据库MotionMillion,包含200万个动作序列,并训练出70亿参数的AI模型,实现了根据文字描述生成自然人体动作的零样本能力。该技术采用创新的六步数据处理流程和小波变换优化,在动作质量和文本对齐度方面显著超越现有方法,为动画制作、机器人控制、虚拟现实等领域开辟了新的应用前景。
这是首份关于自动驾驶领域视觉-语言-行动模型的全景调研,由清华大学等多校团队完成。研究梳理了让汽车能看、能说、能开的VLA4AD技术发展历程,从早期语言解释器到最新推理增强系统的四个阶段,分析了20多个代表性模型,整理了相关数据集和评估方法,并指出了实时性能、安全验证、多模态融合等关键挑战和未来发展方向。
ByteDance人工智能团队开发的FR3E算法通过模仿侦探破案的思维模式,让AI在数学推理中能够识别关键决策点并进行重点探索,显著提高了数学问题解决的准确性和稳定性。该算法在AIME24等困难数学竞赛上表现出色,为AI推理能力的提升开辟了新方向。
中科院团队开发出DiffSpectra系统,首次实现仅通过多模态光谱数据就能准确推断分子完整三维结构的AI技术。该系统同时处理红外、拉曼和紫外光谱,采用扩散模型直接生成分子结构,突破了传统依赖分子库查找的局限。测试显示16.01%完全准确率,前20候选准确率达96.86%,将revolutionize化学分析效率,加速新药研发和材料科学发展。
上海AI实验室等机构联合研究揭示了大语言模型代码评估中的系统性偏见问题。研究发现现有测试方法存在"同质化陷阱",AI生成的测试用例往往无法发现人类编程中的多样化错误。研究团队提出SAGA人机协作框架,通过分析正确和错误的人类代码生成高质量测试用例,显著提升了代码评估的准确性和鉴别力,为AI编程评估提供了新的解决方案。