最新文章
2025-05-27

SAP与阿里巴巴集团携手加速云端转型

SAP今日宣布与阿里巴巴集团达成战略合作,共同加速云转型。根据合作协议,阿里巴巴集团将采用 SAP ERP私有云版本,来构建其企业基础架构。同时,双方还将开展联合市场拓展战略,旨在助力全球客户加速实现价值转化。

Notepad、Paint 以及 Snipping Tool 搭载 AI:Microsoft 推出新功能,但并非所有用户均可使用

Notepad、Paint 以及 Snipping Tool 搭载 AI:Microsoft 推出新功能,但并非所有用户均可使用

微软为记事本、画图和截屏工具引入了 AI 增强功能,可实现文本生成、贴纸创作和自动优化截屏。记事本和画图的新功能仅面向 Microsoft 365、Copilot Pro 用户及 Copilot Plus PC,而截屏工具功能对所有人均开放。

迈向人工智能赋能万维网的征程:NLWeb 及企业必须了解的事项

迈向人工智能赋能万维网的征程:NLWeb 及企业必须了解的事项

本文介绍了微软最新开源协议 NLWeb,它利用现有结构化数据,将网站转变为支持自然语言交互的 AI 应用,为企业构建 agentic AI 提供新路径,同时对比了当前其他 AI 协议的特性与优劣。

真正实现代理式 AI 扩展所需条件

真正实现代理式 AI 扩展所需条件

文章详细分析了企业在推广代理型人工智能时面临的基础设施高投入、技术整合、专才匮乏以及后续管理等挑战,并探讨了如何构建完善生态系统以实现实际业务价值。

从颠覆到再造:知识工作者如何在 AI 后时代蓬勃发展

从颠覆到再造:知识工作者如何在 AI 后时代蓬勃发展

文章探讨了人工智能如何瓦解知识工作者的传统职业与身份,促使他们重新定义自我、发掘机器难以替代的人文优势。

报告:Nvidia 加快开发针对中国市场的新型低功耗 Blackwell GPU

报告:Nvidia 加快开发针对中国市场的新型低功耗 Blackwell GPU

英伟达为应对出口限制,正在研发基于 Blackwell 架构但规格较低、成本较低的新型 AI 芯片,计划6月开始量产,抢占中国市场。

惊人发现!伊利诺伊大学揭示最简单的方法让AI变得更聪明:减少不确定性胜过复杂训练

惊人发现!伊利诺伊大学揭示最简单的方法让AI变得更聪明:减少不确定性胜过复杂训练

这项研究揭示了熵最小化作为单独目标可显著提升大型语言模型在数学、物理和编程任务上的推理能力,无需任何标记数据。伊利诺伊大学厄巴纳-香槟分校的研究团队提出三种方法:无监督微调(EM-FT)、基于熵奖励的强化学习(EM-RL)和推理时优化(EM-INF)。实验表明,这些方法在某些任务上甚至超过需要大量标记数据的先进技术,证明许多预训练模型已具备被低估的推理能力,只需简单的熵最小化即可激发。

大联大连续荣登2025年度中国品牌价值500强,品牌影响力再攀新高
2025-05-27

大联大连续荣登2025年度中国品牌价值500强,品牌影响力再攀新高

大联大成功跻身英国品牌评估机构Brand Finance 5月9日发布的“2025中国品牌价值500强”榜单并位列第218位。

原来AI也会内耗啊,新加坡国立大学提出Thinkless解决AI过度思考问题
2025-05-27

原来AI也会内耗啊,新加坡国立大学提出Thinkless解决AI过度思考问题

2025年5月19日,新加坡国立大学研究团队发表最新研究Thinkless,就像是给"内耗"的AI朋友配了一个心理咨询师,教会它什么时候该深度思考,什么时候可以快速回答。

BLEUBERI:当BLEU不再只是一个简单指标,而成为指导大语言模型的强力工具

BLEUBERI:当BLEU不再只是一个简单指标,而成为指导大语言模型的强力工具

这篇文章介绍了马里兰大学研究团队开发的BLEUBERI方法,该方法惊人地发现被认为过于简单的BLEU评分系统在指导大语言模型遵循指令方面非常有效。研究表明,当使用高质量参考答案时,BLEU与人类偏好的一致率可达74.2%,几乎与复杂的奖励模型相当。基于此,团队开发的BLEUBERI方法在多个基准测试中表现与传统奖励模型方法相当,且在事实准确性方面表现更佳。这一发现为语言模型对齐提供了更经济高效的途径,无需大量人类标注数据和复杂的奖励模型训练。

VerifyBench:为大语言模型的基于参考的奖励系统搭建基准测试

VerifyBench:为大语言模型的基于参考的奖励系统搭建基准测试

VerifyBench是首个专门评估大语言模型基于参考的奖励系统的基准测试,填补了现有奖励评估基准的关键空白。由浙江大学、美团等机构联合开发,包含VerifyBench和更具挑战性的VerifyBench-Hard两个数据集。研究发现虽然大型模型在标准案例上表现出色,但在复杂案例上仍有显著改进空间。该基准测试通过精心构建的数据集和评估框架,为提升大模型推理能力提供了标准化评估工具,对强化学习训练具有重要意义。

BANDITSPEC:用赌博机算法提升AI模型推理速度的创新突破

BANDITSPEC:用赌博机算法提升AI模型推理速度的创新突破

BANDITSPEC是一项创新研究,将多臂赌博机算法应用于大型语言模型的推测解码过程,实现了无需训练的自适应超参数选择。研究团队通过理论分析和实验证明,该方法能在各种基准测试中显著提升模型推理速度,比现有方法快13-19%,并能适应不同类型的输入提示。这一技术为提高AI系统效率开辟了新路径,使未来的AI助手能更智能地适应各种任务需求。

小说竞技场:当AI作家与网文达人同台竞技 - WebNovelBench将大模型小说家放在网文分布图上

小说竞技场:当AI作家与网文达人同台竞技 - WebNovelBench将大模型小说家放在网文分布图上

WebNovelBench研究为评估AI的长篇故事创作能力提供了突破性方法,利用4000多部中国网络小说建立基准,将AI小说家与人类作品进行直接比较。研究者设计了"摘要转小说"任务,通过八个叙事维度进行评估,发现顶级AI模型如Qwen3-235B-A22B已接近高质量人类创作水平。研究揭示了开源模型正快速追赶专有模型,并为AI创意写作评估提供了可靠标准。这项工作不仅展示了AI在叙事创作领域的进步,也为理解人工智能与人类创造力的关系提供了新视角。

HumaniBench:一个从人性角度评估大型多模态模型的全新框架——Vector研究院和中佛罗里达大学联合打造的人机协作评测体系

HumaniBench:一个从人性角度评估大型多模态模型的全新框架——Vector研究院和中佛罗里达大学联合打造的人机协作评测体系

HumaniBench是由Vector研究院和中佛罗里达大学联合开发的首个以人为中心的大型多模态模型评测框架,包含约3.2万对真实世界图像-问题对。与传统仅关注准确率的评测不同,它从公平性、伦理性、理解能力、推理能力、语言包容性、共情能力和鲁棒性七个维度全面评估模型的"人性化"程度。研究对15个顶尖多模态模型的测试显示,闭源商业模型总体领先,但在视觉定位和抗干扰性上存在短板;开源模型在特定能力上表现出色,但在平衡准确率与人性化原则方面面临更大挑战。

思考到什么时候为好?美团AI研究团队提出自适应思考模式切换方法,让大型推理模型更高效

思考到什么时候为好?美团AI研究团队提出自适应思考模式切换方法,让大型推理模型更高效

这篇论文介绍了美团研究团队开发的"自适应自恢复推理"(ASRR)框架,解决了大型推理模型在简单问题上过度思考的效率问题。研究发现模型具有"内部自恢复机制",能在生成答案时隐式补充推理。ASRR通过无思考模式抑制不必要推理,并引入基于准确率阈值的动态长度惩罚,使模型根据问题难度自适应分配推理资源。实验表明,ASRR在保持高准确率的同时,大幅减少了推理长度(最高减少32.5%),并显著提升了安全性(无害率提高21.7%)。

联想问天数据网络产品线再添三款力作 以创新技术破解智算网络难题
2025-05-27

联想问天数据网络产品线再添三款力作 以创新技术破解智算网络难题

联想最新发布三款联想问天系列数据网络新品。

解锁思维多样性:马里兰大学研究团队提出"混合思维"框架助力LLM更有效进行逻辑推理

解锁思维多样性:马里兰大学研究团队提出"混合思维"框架助力LLM更有效进行逻辑推理

马里兰大学和耶鲁大学研究团队提出"混合思维"(Mixture-of-Thought)框架,使大语言模型能够像人类一样通过自然语言、代码和真值表三种互补思维方式进行逻辑推理。这种创新方法在FOLIO和ProofWriter基准测试上比单一思维方式平均提高11.7个百分点的准确率,特别在处理复杂逻辑问题时效果显著。研究表明,多模态思维协同可有效克服自然语言推理中的关键瓶颈,为增强AI逻辑推理能力提供了新路径。

这次与众不同:Datadog公司如何打造出一款专注于可观测性数据的时间序列基础模型

这次与众不同:Datadog公司如何打造出一款专注于可观测性数据的时间序列基础模型

这篇博客解析了Datadog公司开发的TOTO模型,一款拥有1.51亿参数的时间序列预测基础模型,专为可观测性数据设计。研究团队同时推出了BOOM基准数据集,包含3.5亿个观测值和2,807个真实时间序列。TOTO创新性地结合了因果归一化、比例因子化注意力和学生T混合模型等技术,在BOOM、GIFT-Eval和LSF三大基准测试中均取得了最先进性能,证明了领域特定基础模型的优势。

声入虎穴:MBZUAI研究团队揭示大型音频语言模型的安全漏洞与对抗攻击实验

声入虎穴:MBZUAI研究团队揭示大型音频语言模型的安全漏洞与对抗攻击实验

这项由Mohamed bin Zayed人工智能大学研究团队主导的研究首次建立了针对大型音频语言模型的安全性测试基准。研究发现,当前主流音频语言模型在面对特定音频扰动时,即使是微小的声学变化也能显著降低其安全防护能力,导致生成有害内容。研究团队构建了包含1,495个对抗性音频样本的数据集,并开发了音频扰动工具包来生成更具挑战性的测试样本。实验评估了七种主流模型,结果显示没有一个模型能在所有安全维度上保持一致的鲁棒性,这为音频AI安全研究提供了重要基础和方向。

MultiHal:基于知识图谱的多语言LLM幻觉评估数据集——为大模型事实性保驾护航

MultiHal:基于知识图谱的多语言LLM幻觉评估数据集——为大模型事实性保驾护航

这项研究提出了MultiHal,一个基于知识图谱的多语言数据集,用于评估大型语言模型的幻觉问题。研究团队从开放域知识图谱中挖掘了14万条路径,筛选出2.59万条高质量数据,并翻译成5种语言。基线实验表明,使用知识图谱增强可使语义相似度分数提高0.12至0.36点,证明了知识图谱集成对减轻幻觉的有效性。这一资源将促进未来在基于图的幻觉缓解和事实核查领域的研究。