最新文章
SpaceX 第九次 Starship 测试飞行升空进入太空,最终陷入旋转

SpaceX 第九次 Starship 测试飞行升空进入太空,最终陷入旋转

SpaceX 在第九次 Starship 测试飞行中实现了与 Super Heavy 助推器的成功分离并进入轨道,但随后失控旋转,导致不受控重返大洋。试飞虽展现技术进步,却也暴露出复飞中的问题,促使公司进行硬件改进。

Anthropic 在移动端推出 Claude 对话语音模式,可搜索 Google Docs、Drive、Calendar

Anthropic 在移动端推出 Claude 对话语音模式,可搜索 Google Docs、Drive、Calendar

Anthropic 推出的更新使 Claude 支持语音对话,能查询 Google 应用数据并提供网页搜索;此举让用户在手机上享受更便捷、丰富的 AI 交互体验。

VLM-R3:区域识别、推理与优化,让多模态大模型实现更精准的思维链推理

VLM-R3:区域识别、推理与优化,让多模态大模型实现更精准的思维链推理

VLM-R3是一项由北京大学和阿里巴巴联合研发的突破性技术,它通过区域识别、推理和优化三大功能,使多模态大语言模型能够在推理过程中动态聚焦图像的不同区域。类似于人类在思考时会反复观察图像关键部分,VLM-R3通过创新的区域条件强化学习方法,大幅提高了视觉推理能力,在MathVista、ScienceQA等基准测试上表现优异,特别是在需要精细空间理解的任务中效果显著。

人人都在追逐 vibe coding——Google 推出 Stitch,继 Jules 之后的新作

人人都在追逐 vibe coding——Google 推出 Stitch,继 Jules 之后的新作

本文介绍了现阶段炙手可热的 vibe 编码趋势,重点解读 Google 推出的实验产品 Stitch。该工具通过 AI 自动生成 UI 界面初稿,支持快速设计并导出至 Figma,虽在 beta 版中用户反馈参差不齐,但预示着 AI 助力编码的新方向。

让机器人像人类一样解读图像寓意:上海人工智能实验室开发出人类思维启发的图像理解框架

让机器人像人类一样解读图像寓意:上海人工智能实验室开发出人类思维启发的图像理解框架

这项研究提出了名为"Let Androids Dream"的创新框架,解决了多模态大语言模型在理解图像隐喻方面的核心难题——上下文缺失。通过模拟人类认知过程的三阶段系统(感知、搜索、推理),该框架即使使用轻量级GPT-4o-mini模型,也能在英语和中文图像寓意理解任务中达到最先进性能,在开放式问题上甚至超越GPT-4o模型36.7%。这一成果不仅推动了视觉-语言推理技术的发展,还为未来AI系统理解人类文化中的隐喻和象征提供了新方向。

定制翻译:引导大语言模型"穿上"人类译者的文体风格

定制翻译:引导大语言模型"穿上"人类译者的文体风格

这项研究探讨了如何使大语言模型生成的机器翻译体现特定译者的风格特点。研究团队来自格罗宁根大学和米兰-比可卡大学,他们使用PAR3数据集(包含7种语言小说的多译者翻译)进行实验。他们首先验证了译者风格的可区分性,然后比较了提示方法与转向技术在引导模型生成个性化翻译方面的效果。研究创新性地提出了基于稀疏自编码器的对比转向方法,通过调整模型内部表示来引导输出风格。结果表明,该方法在保持翻译质量的同时能有效实现个性化,且对较小模型尤其有效。

2025-05-28

AI 测试重塑软件质量格局,Testin 云测引领软件测试智能化变革

在当今数字化时代,软件已成为企业运营与创新的核心驱动力。随着企业数字化转型的加速,软件的复杂性和迭代速度达到了前所未有的高度。

Netflix CPO Eunice Kim 来 TechCrunch Disrupt 2025 探讨科技、工具,当然,还有其密码共享策略

Netflix CPO Eunice Kim 来 TechCrunch Disrupt 2025 探讨科技、工具,当然,还有其密码共享策略

Netflix首席产品官 Kim 将于今年10月27-29日在旧金山Moscone West举办的TechCrunch Disrupt 20周年庆上,分享产品策略、全球商业布局与内容创作技术的创新实践。

成熟的英国金融科技公司增加技术与网络安全招聘

成熟的英国金融科技公司增加技术与网络安全招聘

英国金融科技公司在转型成熟后正大力招聘技术、网络安全及风控人才,以应对产品扩展、系统升级和日益严格的监管要求,同时反映出投资收缩趋势。

针对 MATLAB 开发商 MathWorks 的勒索软件攻击 —— 许可中心仍处封锁状态

针对 MATLAB 开发商 MathWorks 的勒索软件攻击 —— 许可中心仍处封锁状态

MathWorks 遭受勒索软件攻击,导致旗下旗舰产品 MATLAB 及相关服务中断,授权中心无法验证许可证,部分用户甚至转而采取破解应急。目前大部分功能已恢复,但安全问题仍待解决。

软件工程领导者如何构建和交付软件以推动业务成果

软件工程领导者如何构建和交付软件以推动业务成果

本文章探讨软件工程领导者如何设计、构建与交付高价值软件,聚焦客户与业务目标,通过评估、规划、提升安全和质量,并利用平台工程实现规模效应。

Java如何彻底改变开发领域:代码三十周年之际

Java如何彻底改变开发领域:代码三十周年之际

Java自30年前诞生以来,通过“一次编写,到处运行”的理念重塑开发生态,并成为企业核心技术,历经风雨仍值得信赖。

外包信心:下一个大热 AI 趋势?

外包信心:下一个大热 AI 趋势?

文章探讨了借助 AI 工具实现各类场景增强(如影视中 EDITH 与现实中的 Cluely AI),提升工作与社交表现,同时引发对伦理风险的讨论。

PEAK:AIO 利用 CXL 内存拯救受 HBM 限制的 AI 模型

PEAK:AIO 利用 CXL 内存拯救受 HBM 限制的 AI 模型

PEAK:AIO 采用 CXL 内存突破 GPU HBM 内存限制,实现 AI 推理任务中 KVCache 重用、长上下文扩展及超低延迟访问,加速大规模模型推理。

人工智能可能已经在缩减科技行业的入门级岗位,新研究显示

人工智能可能已经在缩减科技行业的入门级岗位,新研究显示

研究表明,科技企业正利用AI减少应届生招聘,同时增加有经验人才的引进;掌握AI技能将成为新卒求职的关键。

Salesforce斥资80亿美元收购Informatica对企业数据与 AI 的意义

Salesforce斥资80亿美元收购Informatica对企业数据与 AI 的意义

Salesforce以80亿美元收购Informatica,整合双方数据管理与agentic AI优势,构建企业统一数据平台,加速低代码AI方案落地。

OnePlus 全力投身 AI 革新

OnePlus 全力投身 AI 革新

OnePlus 推出多项 AI 功能,包括语音记录、翻译、智能拍照及屏幕录制,并通过全新 Plus Key 整合这些体验,将率先在印度市场的 OnePlus 13 系列手机中应用。

Mistral 推出 API 构建能够运行 Python、生成图像、执行 RAG 等任务的 AI 代理

Mistral 推出 API 构建能够运行 Python、生成图像、执行 RAG 等任务的 AI 代理

Mistral AI 推出新专有 API,利用 Mistral Medium 3 模型快速集成自主生成 AI 代理。平台内置 Python 执行、图像生成、文档库 ( RAG ) 及网络搜索等功能,支持多代理协同处理复杂任务,适用于各领域应用。

日期碎片化:大语言模型时间推理的隐藏瓶颈,阿伯丁大学与格勒诺布尔阿尔卑斯大学联合研究揭示

日期碎片化:大语言模型时间推理的隐藏瓶颈,阿伯丁大学与格勒诺布尔阿尔卑斯大学联合研究揭示

这项由阿伯丁大学和格勒诺布尔阿尔卑斯大学研究者联合完成的研究揭示了大语言模型处理日期时的关键问题:现代分词器常将日期分割成无意义的碎片,如"20250312"被切分为"202"、"503"、"12",这严重影响时间推理能力。研究提出了日期碎片化率指标,创建了DATEAUGBENCH测试集,并通过内部机制分析发现,大型模型能在早期层快速"修复"碎片化日期,但其推理路径与人类理解方式显著不同,这解释了模型在处理非标准日期时的准确率下降。

MUG-Eval: 让多语言模型评估像玩游戏一样简单 — KAIST与Trillion Labs联合研究突破

MUG-Eval: 让多语言模型评估像玩游戏一样简单 — KAIST与Trillion Labs联合研究突破

MUG-Eval是KAIST和Trillion Labs联合开发的创新多语言评估框架,通过让语言模型在目标语言中进行自我对话来评估其生成能力。该方法独特之处在于不依赖语言特定工具或人工标注数据,而是通过任务完成率间接衡量语言能力。研究团队测试了8种顶级语言模型在30种语言上的表现,发现其结果与传统评估方法高度一致(相关系数>0.75)。MUG-Eval揭示了模型在低资源语言上表现显著落后,并发现英语并非评估低资源语言的最佳替代。该框架理论上支持2,102种语言,为真正包容的AI评估提供了新途径。