MIT和斯坦福研究团队开发了AuriStream,一个模仿人类听觉系统的革命性语音AI。该系统采用两阶段设计:WavCoch组件将音频转换为类似耳蜗的频谱表示,autoregressive模型预测声音序列。AuriStream在词汇语义理解上创造新纪录,音素识别达88%准确率,并具备独特的可解释性——能将预测结果可视化为声谱图。这项发表于arXiv的研究为语音AI开辟了生物启发的新路径。
浙江大学团队开发出"视觉动作提示"技术,通过将复杂的手部或机器人动作转换为骨架图,让AI能够精准理解并生成逼真的互动视频。该方法在多个数据集上显著超越传统文本驱动和状态驱动的视频生成方法,实现了跨领域知识迁移,为游戏开发、机器人学习和虚拟现实等领域提供了新的技术路径。
北京大学团队推出革命性AI系统Lumen,通过创新的多域联合训练策略解决视频重打光难题。系统结合3D渲染数据的物理准确性和真实视频的自然质感,实现端到端的智能视频重打光。用户只需输入视频和文字描述,即可获得专业级光影效果,在多项评估指标上全面超越现有方法,为视频制作技术的普及化开辟新路径。
对全球制造业日益严峻的脱碳挑战与资源枯竭风险,全球领先的工业软件公司PTC宣布,正式发布由PTC全球可持续发展负责人戴夫·邓肯(Dave Duncan)撰写的《产品可持续性:PTC特别版》中文版。
人工智能代表着第四次工业革命的到来,它不仅是机械化工具,更是全球范围内增强、合作和颠覆的催化剂。AI已深度融入日常生活,在医疗、国防、金融和公共治理等领域发挥变革作用。与以往技术不同,AI能够增强人类决策能力,提升效率和创新。然而,算法偏见、网络安全威胁和隐私问题等风险不容忽视。未来AI发展需要政府、企业和学术界协调合作,建立伦理、法律框架,确保AI成为推动人类进步的积极力量。
随着现代AI技术对数据中心基础设施提出新要求,"AI数据中心"一词使用日益频繁。然而,这一术语的定义仍不清晰,AI数据中心与传统数据中心的区别并不明显。AI数据中心通常具备更大容量、GPU加速硬件、优化网络设备、高效冷却系统等特征,但这些特性并非AI独有。与其投资专门的AI设施,企业或许应考虑改造现有数据中心来支持AI工作负载。
私募股权公司Thoma Bravo宣布以20亿美元(含债务)收购联络中心自动化软件提供商Verint Systems。Verint为超过85%的财富100强企业提供服务,其云平台通过AI代理自动回答客户问题,并为人工客服提供智能辅助。公司第一季度营收2.08亿美元,订阅业务年化收入增长6.3%至7.1亿美元。交易预计2026年初完成,Verint将与Thoma Bravo旗下的Calabrio合并。
美国劳动节前夕,AI与就业话题从猜测转向政策核心。美联储主席鲍威尔在杰克逊霍尔会议上表示,疲软的就业市场与顽固通胀并列成为美联储风险考量因素。市场解读为降息信号并大涨。研究显示AI主要推动就业重新配置而非大规模失业,仅4%岗位高度依赖AI。采用AI的企业内部流动性增加一倍,但员工job安全感并未下降。美联储将密切关注AI生产力提升如何影响工资谈判和就业稳定。
传统的数字堡垒安全模式已经过时,在云服务和远程办公时代,身份成为网络安全的新前线。Ping Identity首席执行官Andre Durand讨论了从简单密码到复杂验证的演进,去中心化数字凭证如何减少数据泄露影响,以及身份与人工智能的关系。他强调现代安全的核心是"只信任已验证的",AI代理需要具备身份认证和授权机制,所有数字交易都必须基于可验证的身份建立信任。
来自27个国家的485个创业项目参与了中亚欧亚地区历史上最大规模的创业比赛"通往战场之路"。经过激烈角逐,四家优秀初创企业脱颖而出:Polygraf AI(阿塞拜疆)、QuickShipper(格鲁吉亚)、Surfaice(哈萨克斯坦)和ArtSkin(吉尔吉斯斯坦)成功晋级2025年TechCrunch创业战场200强。这是TechCrunch历史上首次为中亚欧亚地区设立专门通道,标志着该地区科技生态系统的重要里程碑。
随着AI和电动车需求激增,全球电力需求飙升,电网承受巨大压力。初创公司Yottar通过绘制电网容量地图,帮助企业确定数据中心、充电站等设备的最佳安装位置。该公司专注于1-5兆瓦的中型需求开发,客户包括特斯拉和英国国家医疗服务体系。Yottar最近完成100万美元种子轮融资,目前在英国运营,计划扩展至美国等地区。
Hugging Face团队发布SmolLM2语言模型研究报告,详细阐述了17亿参数小型模型的创新训练方法。该研究通过多阶段精细化训练策略和三个全新数据集(FineMath、Stack-Edu、SmolTalk)的创建,证明了小模型在数据质量优化下可达到优异性能。模型在多项基准测试中超越同规模竞品,为人工智能技术的普及化和可持续发展提供了新的技术路径。
ByteDance研究团队发布OmniHuman-1,这是一个革命性的AI人物动画生成系统。该技术只需一张照片和音频就能生成逼真的说话视频,支持真人、动漫角色等多种图像类型。核心创新在于"全方位条件训练"策略,通过同时使用文字、音频、动作三种条件,将可用训练数据从10%提升到100%,显著改善了生成质量和多样性,为AI视频制作技术带来重大突破。
阿里巴巴Qwen团队发布的Qwen2.5-VL是新一代多模态大型语言模型,实现了原生动态分辨率处理、超长视频理解和精确设备操作等突破。该模型提供3B、7B、72B三个版本,在文档理解、视觉定位、多语言处理等任务上达到业界领先水平,训练数据规模扩展至4.1万亿标记,为用户提供更智能实用的AI助手体验。
企业现在最紧迫的议题不再是单纯的功能完善,而是如何缩短“上市时间”。 因此,Creo 12的全部发力点,都聚焦在帮助工程师以更智能、更快速工作这件事上。
Meta团队开发的MLGym是首个专门训练AI进行科学研究的平台,包含13个跨领域研究任务。测试显示当前顶级AI模型能改进现有方法但尚无法独立创新,距离真正的AI科学家还有距离。该平台为评估和发展AI研究能力提供了重要工具。
俄罗斯人工智能研究院团队揭示大语言模型的惊人秘密:标点符号和停用词在AI记忆系统中扮演关键角色。研究发现删除这些"无关紧要"的词汇会显著降低AI性能,颠覆了传统认知。团队开发的LLM-Microscope开源工具让普通人也能窥探AI内部工作机制,为AI可解释性研究开辟新方向。
DeepSeek-AI联合北京大学开发的NSA稀疏注意力技术,通过令牌压缩、精选保留和滑动窗口三重策略,让AI在处理长文本时实现原生稀疏化。该技术在64K文本处理中达到11.6倍解码加速,同时在多项AI能力测试中超越传统方法,为高效AI应用开辟新路径。
上海AI实验室联合清华等机构发现,通过"测试时计算扩展"策略,小型AI模型可以战胜参数规模大135倍的巨型模型。10亿参数的模型在数学推理任务上超越了4050亿参数的模型,甚至5亿参数的迷你模型都能胜过GPT-4o。研究揭示了AI发展新方向:聪明的推理策略比模型规模更重要,为资源有限的机构提供了"以智取胜"的可能性。