复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
戴尔技术推出新解耦模式,融合传统三层架构灵活性与超融合便捷性,通过Dell Private Cloud等产品优化数据中心管理,加速云服务及AI应用转型。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。
香港大学研究团队开发的MatTools是首个全面评估大语言模型在材料科学工具应用能力的基准测试框架。研究发现通用型大模型(如GPT-4o)显著优于专业材料科学模型;AI生成的文档作为检索源比原始代码或官方文档更有效;简单的自反思系统反而优于复杂的多代理架构。这项研究为AI辅助科学工具的设计提供了全新思路,强调"通才胜于专才"、"AI懂AI"和"简单更好"的原则,有望加速材料科学研究和技术创新。
CheXGenBench是爱丁堡大学和三星AI中心研究团队开发的首个全面评估合成胸部X光片的基准框架,从保真度、隐私风险和临床实用性三方面对11种文本到图像生成模型进行评估。研究发现现有评估方法存在重大缺陷,特别是在衡量生成质量时。Sana模型表现最佳,基于此发布了SynthCheX-75K数据集,包含75K高质量合成X光片。该框架为医学AI社区建立了统一标准,促进公平比较和未来研究发展。
这篇论文提出了一种名为SymMark的多功能共生水印框架,打破了传统大语言模型水印技术中鲁棒性、文本质量和安全性之间的权衡困境。研究者通过创新性地结合逻辑基础和采样基础水印方法,提出了串行、并行和混合三种协同策略。其中,混合策略利用标记熵和语义熵自适应地选择最佳水印方式,在各项指标上实现了最优平衡。实验表明,该框架显著优于现有方法,特别是在对抗攻击环境下表现出色,为大语言模型的内容认证与溯源提供了全新思路。
本研究提出了双头优化(DHO)框架,一种解决视觉-语言模型知识蒸馏中梯度冲突问题的创新方法。通过设计两个独立的预测头分别学习标记数据和教师信号,DHO有效缓解了传统单头方法中的梯度冲突,提升了特征学习质量。实验结果显示,DHO在ImageNet等11个数据集上一致超越基线方法,使用1%标记数据时较现有最佳方法提高了3%的准确率,同时参数量更少。此外,DHO支持推理时通过线性组合双头输出灵活调整模型表现,为半监督学习下的知识蒸馏提供了一种简单高效的解决方案。
这篇研究论文介绍了一种名为"Group Think"的创新方法,让单个大型语言模型能够同时扮演多个并行推理智能体,这些"思考者"能在标记级别相互协作。传统多智能体系统通常采用轮流推理方式,而Group Think实现了实时并行协作,智能体可以看到彼此的部分生成内容并动态调整。实验表明,这种方法不仅提高了推理质量,还显著降低了延迟,特别适合资源有限的边缘设备。研究团队提出了两种高效实现方案,并通过三类代表性问题验证了Group Think的优势。
Mergenetic是一个开源工具库,让研究人员能在普通GPU上进行进化式模型合并。由罗马萨皮恩扎大学和洛桑联邦理工学院研究者开发,它集成了19种进化算法和6种合并策略,支持数据集抽样以减少计算负担,并提供Python API、命令行和图形界面三种交互方式。通过案例研究证明,该工具能有效合并多语言模型和促进跨语言能力迁移,降低了高质量模型合并的技术门槛,使普通研究者也能创造出优秀的语言模型。
本研究提出了MuToR,一种通过在输入序列中插入"寄存器令牌"来改进大语言模型训练的创新方法。与传统的"下一个词预测"方法相比,MuToR使模型能够同时预测多个未来词,从而提供更丰富的学习信号。这种方法不需要改变模型架构,仅增加极少量参数,并且在微调预训练模型时表现尤为出色。研究团队在数学推理、文本摘要和图像生成等多种任务上验证了其有效性,证明MuToR不仅能提高模型性能,还能在保持推理速度的同时增强模型的规划能力。
新加坡国立大学和南洋理工大学联合研究团队开发的GuardReasoner-VL是一种具备推理能力的视觉-语言模型安全守门员,能有效防护AI系统免受有害内容影响。该模型通过先推理再决策的方式,不仅能判断内容是否有害,还能提供详细的推理过程作为解释。研究者构建了包含12.3万样本的训练语料库,并通过监督微调和在线强化学习优化模型性能。实验结果显示,GuardReasoner-VL在安全评估基准上的平均F1分数比现有最佳模型高19.27%,为AI安全领域提供了新的解决方案。
剑桥大学和伦敦大学学院的研究团队提出了一种名为"视觉规划"的全新范式,让人工智能系统能够完全通过图像序列而非文本进行推理。与传统依赖语言的方法不同,这种方法模仿人类在解决空间问题时直接在"心眼"中想象解决方案的能力。研究团队开发的基于强化学习的视觉规划框架(VPRL)在导航任务上比基于文本的方法平均提高了40%的准确率,证明了非语言推理在特定任务中的优越性,为AI系统开辟了一条更接近人类直觉思维的新路径。
腾讯AI实验室和腾讯LLM部门研究人员开发的MPS-Prover是一种创新的逐步自动定理证明系统,通过两大关键创新解决了现有方法的局限:一个高效的训练后数据精选策略,剔除约40%冗余训练数据;以及一个多视角树搜索机制,整合了学习型评价模型与策略性设计的启发式规则,提高策略选择多样性并增强搜索稳健性。实验表明,MPS-Prover在miniF2F和ProofNet等基准测试上实现了最先进性能,生成的证明比现有方法更简洁多样,为开发更强大的混合证明系统提供了宝贵思路。
韩国首尔国立大学研究者提出HACO框架,解决手部接触估计中的数据不平衡问题。论文《Learning Dense Hand Contact Estimation from Imbalanced Data》针对手部接触数据中的类别不平衡(大多数样本无接触)和空间不平衡(接触主要集中在指尖)提出两大创新:平衡接触采样和顶点级类别平衡损失函数。他们利用14个数据集的84万张图像进行训练,在多种手部交互场景中显著超越现有方法,F1得分从之前最佳的0.197提升至0.531,同时在3D抓取优化和物体重建等下游任务中也展现出强大应用价值。
戴尔推出订阅服务,支持在自家服务器与存储上部署基于 VMware、 Nutanix 和 Red Hat 堆栈构建的私有云。借助 Dell Automation Platform,可更快实现集中管理与全生命周期服务,同时还引入了边缘自动化和 AI 硬件创新。
Red Hat 推出的 AI 推理服务器基于 vLLM 与 Neural Magic 技术,通过压缩模型和优化 GPU 内存管理,实现生成式 AI 快速推理和混合云部署。
Gartner 2025大中华区高管交流大会于近日盛大召开,Gartner 发布最新研究,仅靠技术堆砌难以释放 人工智能(AI) 潜能,企业要想扩大业务影响,首要任务是建立一支 AI 就绪型员工队伍。
受全文件访问权限撤销影响导致安卓端文件同步受阻,谷歌在用户和社区呼声中恢复了该权限,Nextcloud将尽快发布更新以恢复完整功能。
本文概述了物联网设备安全面临的不断升级的网络攻击风险,讨论了因设备普及和互联带来的漏洞、AI驱动的恶意软件威胁以及供应链风险,并提出了通过风险管理、标准制定和先进防护措施来应对这些挑战的重要性。