最新文章第47页

2025-08-22

北京大学团队打造TransMLA：让大模型推理速度飞跃10倍的神奇转换器

北京大学团队推出TransMLA技术，可将现有GQA架构语言模型直接转换为高效MLA架构，无需重新训练。该技术通过RoRoPE、FreqFold和BKV三项创新实现了最高10.6倍的推理速度提升，在93%内存压缩下仅需60亿词元微调即可恢复性能，为AI模型优化提供了经济实用的解决方案。

KAIST团队推出连续扩散语言模型：告别传统AI文本生成的"跳跃"缺陷

KAIST研究团队提出黎曼扩散语言模型（RDLM），通过将文字映射到几何空间实现连续建模，解决了传统扩散模型在文本生成中的"跳跃"问题。该方法在多项测试中超越现有扩散模型，接近自回归模型性能，并支持并行生成和跨领域应用，为AI文本生成技术开辟了新方向。

谷歌团队让AI学会"看天气"：一个模型同时掌握看云、测风、观雨的神奇技能

谷歌DeepMind团队开发了革命性的WeatherFormer天气预测模型，这是首个能够同时处理多种天气预测任务的通用AI系统。该模型通过学习全球海量天气数据，掌握了天气系统的基本规律，然后可以快速适应各种具体预测需求。相比传统需要为每个任务单独训练模型的方法，WeatherFormer展现出显著的效率和精度优势，有望为农业、灾害防控、能源管理等领域提供更准确便捷的天气预测服务。

当AI学会解读人类的心：哈佛和微软团队让机器掌握情绪表达的密码

哈佛大学和微软研究院团队开发出突破性的多模态情感理解AI系统，能同时分析文字、语音、面部表情和肢体动作，情感识别准确率达95.7%，接近人类专家水平。该系统成功解决了传统技术无法理解讽刺、文化差异等复杂情感表达的难题，在医疗诊断、个性化教育、客户服务等领域展现巨大应用潜力，为实现真正理解人类情感的人工智能奠定了基础。

斯坦福AI破解人类演讲奥秘：声音也能"看见"说话者的样子

斯坦福大学研究团队开发出SpeechDriveFace技术，能够仅通过声音生成逼真的说话面部视频。该技术通过深度学习建立声音与面部表情的映射关系，在清晰度、同步性等测试中表现优异，超过80%观察者无法区分真假。技术在内容创作、在线教育、虚拟客服等领域应用前景广阔，代表了AI多模态理解能力的重要突破，为未来人机交互开辟新可能。

声音变视频：Captions公司推出能听会说的AI导演Mirage

Captions公司推出的Mirage是一项革命性的AI视频生成技术，仅通过音频就能生成完全匹配的说话视频。该技术采用先进的扩散模型，能够分析音频中的语调、节奏和情感信息，转换为自然流畅的视频内容。Mirage在嘴唇同步准确率和面部表情自然度方面表现出色，为教育培训、内容创作、企业宣传等领域提供了低成本、高效率的视频制作解决方案，有望推动整个数字内容创作行业的变革。

DeepSeek发布V3.1版本，为国产新一代芯片做好准备

中国AI公司DeepSeek发布旗舰语言模型V3.1更新版，该模型已针对新一代国产芯片进行优化。新模型采用UE8M0数据类型训练，为即将发布的国产芯片做准备。V3.1统一了"思考"和"非思考"模式，单一模型支持两种范式，上下文窗口从65536扩展至131072个token，在工具调用能力上显著提升，Browsecomp基准测试得分从8.9提升至30。

VAST推出SyncEngine工具解决企业数据分散难题

VAST Data发布SyncEngine通用数据目录和高性能导入解决方案，能够发现、编目并捕获其他供应商存储系统中的文件和对象数据，将其导入VAST的AI专用系统。该工具提供跨文件系统、对象存储和SaaS应用的实时可搜索目录，使数PB到EB级数据集中的数万亿文件瞬间可被发现，消除了分布式非结构化数据集发现和调动的障碍。

微软在Windows 11 Insider Preview Canary Channel build 27928中将语言和时间设置从控制面板迁移至设置应用。新功能包括添加时钟、选择时间服务器、时间格式设置以及数字货币格式更改等。微软去年曾表示控制面板"已弃用"后迅速收回，但目前仍强调其仅为兼容性保留。此外，Copilot+电脑用户可使用Copilot应用进行语义文件搜索，支持自然语言查找文档和图像。

人工智能

自然语言处理

智能化升级

2025-08-22

Google搜索AI模式全球推广并提升智能化水平

谷歌正在将其搜索引擎的AI模式推广到全球更多地区，同时不断提升人工智能技术的智能化水平。这一举措标志着谷歌在搜索领域的AI应用将覆盖更广泛的用户群体，为全球用户提供更加智能、精准的搜索体验。通过持续的技术优化和功能升级，谷歌AI搜索模式将能够更好地理解用户需求，提供更相关的搜索结果。

网络安全

对抗性攻击

漏洞发现

2025-08-22

图像缩放攻击突破Google Gemini等AI系统安全防护

安全研究人员发现，谷歌Gemini CLI等生产级AI系统容易受到图像缩放攻击。攻击者通过在图像中嵌入恶意提示，利用AI系统的图像缩放算法使隐藏指令在缩放后显现，从而绕过安全机制实现数据窃取。研究团队开发了开源工具Anamorpher来演示此攻击技术。谷歌回应称这并非默认配置下的安全漏洞，只在用户明确信任输入并覆盖默认设置时才可能发生。

机器人新纪元

2025-08-22

对话蓝点触控刘吴月：力觉是人形机器人场景化应用的关键

在人形机器人逐渐走入实际场景中后，对六维力传感器提出了更高的需求。

人工智能

元学习

少样本学习

2025-08-22

哈佛大学团队突破性发现：AI如何像人类一样从少量例子中快速学会新技能

哈佛大学和麻省理工学院研究团队开发了MetaFlows，一种革命性的AI学习方法，能让机器像人类一样从少量例子中快速学会新技能。该技术结合流匹配和元学习，显著提升数据效率，在图像生成和视频合成等任务中表现出色。MetaFlows有望在创意产业、教育医疗等领域广泛应用，虽然目前仍面临计算复杂度等挑战，但为通用人工智能发展开辟了新路径。

微软研究院重大突破：用5000道逻辑题训练出会推理的AI，解题能力提升125%！

强化学习

逻辑推理

人工智能

2025-08-22

微软研究院重大突破：用5000道逻辑题训练出会推理的AI，解题能力提升125%！

微软研究院开发出Logic-RL训练框架，仅用5000个逻辑谜题就让7B参数AI模型学会深度推理。该方法通过强化学习让AI自发发展出反思、验证等思维能力，在数学竞赛中实现125%性能提升，证明了小规模精准训练的巨大潜力，为AI推理能力发展提供新思路。

多模态人工智能

专家混合模型

测试时优化

2025-08-22

多模态专家混合模型的智能助理：约翰霍普金斯大学团队让AI在测试时自动调整专家选择，性能媲美更大模型

约翰霍普金斯大学团队提出R2-T2方法，通过测试时动态调整专家权重让多模态AI更智能。该技术无需重训练就能让7B小模型性能超越34B大模型，在视觉问答等9个基准测试中取得显著提升。核心思路是让AI在遇到新任务时自动寻找相似成功案例并模仿其专家选择策略。

人工智能

推理增强学习

阿里巴巴达摩院

2025-08-22

阿里巴巴的革命性突破：让AI像人类一样推理的全新机器学习框架

阿里巴巴达摩院开发的PREL框架通过渐进式学习让AI具备类人推理能力，在复杂推理任务中性能提升超35%。该框架采用多层次架构和动态推理路径，解决了传统AI推理混乱、上下文丢失等问题，已在医疗诊断、金融评估等领域展现应用潜力。

KAIST团队推出Mol-LLaMA：首个能真正"看懂"分子的AI助手，药物发现新时代来临

分子科学

大语言模型

药物发现

2025-08-22

KAIST团队推出Mol-LLaMA：首个能真正"看懂"分子的AI助手，药物发现新时代来临

韩国KAIST团队开发的Mol-LLaMA是首个能像化学专家一样理解分子并解释其性质的AI系统。该系统通过融合2D和3D分子信息，不仅能准确预测分子特性，还能详细解释背后的科学原理，在药物发现、化学教育等领域展现出巨大应用潜力，为分子科学研究开启了AI辅助的新时代。

人工智能

软件工程

基准测试

2025-08-22

OpenAI发布百万美元软件工程挑战：前沿AI模型能否在真实自由职业市场中赚取百万美元

OpenAI研究团队创建了SWE-Lancer基准，通过1400多个来自Upwork的真实软件工程任务（总价值100万美元）评估AI编程能力。测试包括个人编程任务和技术管理决策，使用专业工程师编写的端到端测试进行评估。最佳AI模型Claude 3.5 Sonnet成功率达26.2%（编程）和44.9%（管理），总共赚取20.8万美元，展现了AI在软件工程领域的潜力和局限。

人工智能

细胞成像

生物医学技术

2025-08-22

当看不见的世界变得可见：MIT科学家如何让显微镜下的细胞"说话"

MIT科学家开发的CellSAM人工智能系统能够仅通过普通显微镜的黑白照片预测细胞内部结构，准确率高达95%。该技术突破了传统荧光显微镜的局限，无需昂贵标记物就能同时观察多种细胞器，将加速药物开发、改善疾病诊断，并使高端细胞研究技术普及到更多实验室。

神经科学

脑成像技术

音乐治疗

2025-08-22

当音乐遇上大脑：斯坦福大学揭秘旋律如何重塑我们的神经网络

斯坦福大学研究团队运用先进脑成像技术，首次实时观察音乐对大脑的影响机制。研究发现音乐如同"大脑指挥家"，能协调多个脑区活动，实现神经振荡同步，调节情绪、增强记忆、激发创造力并促进社交连接。不同音乐类型激活不同神经通路，具有明显个体差异。研究为音乐治疗抑郁症、焦虑症等疾病提供科学基础，揭示了音乐在教育和医疗领域的应用潜力。

数源AI

AI源于数据，数源AI专注于AI领域入门及提升，让大家能够更加快速高效的完成相关专业知识的学习！学AI就来数源！

用AI，在数字身份验证风暴中心重构信任坐标

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: