最新文章
电子科大团队最新发现:用不到10%的数据就能让AI更聪明,训练时间还能缩短一半!

电子科大团队最新发现:用不到10%的数据就能让AI更聪明,训练时间还能缩短一半!

电子科技大学研究团队突破性发现:仅使用不到10%的精选训练数据,就能让多模态AI的推理能力超越传统全数据训练方法,同时缩短40%训练时间。他们开发的RAP数据选择框架通过因果差异分析和注意力评估,精准识别能激发AI真正多模态推理的"认知样本",颠覆了"大数据必然更好"的传统观念,为AI训练开辟了质量优先的新路径。

巴斯克AI团队新突破:让计算机像专家一样自动识别信息,无需大量人工标注

巴斯克AI团队新突破:让计算机像专家一样自动识别信息,无需大量人工标注

这项由巴斯克语言技术中心团队完成的研究,开发了GUIDEX方法来自动生成信息提取的标注指南和训练数据。该方法通过四个步骤(文档总结、结构化表示、指南生成、实例提取)模拟专家工作流程,无需人工标注即可适应新领域。实验显示,GUIDEX在七个零样本命名实体识别基准上创造了新的最佳成绩,比现有方法平均提升近2个F1分数点。

大模型也会"过时"?Skoltech首创"常青问题"识别系统,让AI更懂"时效性"

大模型也会"过时"?Skoltech首创"常青问题"识别系统,让AI更懂"时效性"

Skoltech等机构联合开发了首个多语言"常青问题"识别系统EverGreenQA,能准确区分问题答案的时效性。研究创建了包含7种语言4757个问题的数据集,训练的EG-E5分类器准确率达90.6%,超越现有大型语言模型。该技术可改善AI自我认知、优化数据集质量,并能预测GPT-4o的检索行为,为构建更可信的AI问答系统提供重要突破。

CRAWLDoc:如何从混乱的网页中找到学术黄金——德国乌尔姆大学开发的智能文献排序系统

CRAWLDoc:如何从混乱的网页中找到学术黄金——德国乌尔姆大学开发的智能文献排序系统

这项研究介绍了CRAWLDoc,一种创新的文献排序系统,能从网络中自动识别与学术论文相关的文档。德国乌尔姆大学的研究团队利用小型语言模型,将论文登陆页面作为查询,对所有链接资源进行排序,有效解决了学术元数据提取面临的网页布局多样性问题。基于600篇来自六大出版商的论文测试,系统展现出卓越的排序性能和跨出版商适应能力,为改进学术信息提取奠定了基础。

婴幼儿语音情感数据的智能分析:西安交通大学与昆明理工大学联合突破传统限制的榜样之作

婴幼儿语音情感数据的智能分析:西安交通大学与昆明理工大学联合突破传统限制的榜样之作

西安交通大学与昆明理工大学研究团队开发了一种基于集成学习的婴幼儿语音情感识别方法,能有效分辨饥饿、困倦、不舒服和高兴四种情绪状态。研究采用三层分类器架构,整合SVM、随机森林和KNN算法,达到85.82%的准确率,显著优于单一分类器。这项技术有望应用于智能婴儿监护和早期疾病筛查,为理解婴幼儿非语言表达开辟了新途径。

大型语言模型的隐私保护:微软与普渡大学联合研究团队让AI学会在对话中判断哪些信息该说,哪些不该说

大型语言模型的隐私保护:微软与普渡大学联合研究团队让AI学会在对话中判断哪些信息该说,哪些不该说

这项来自普渡大学和微软的研究探索如何让AI助手更好地保护用户隐私。研究团队通过让大型语言模型在回答前先思考"语境完整性"(即在特定场景下什么信息适合分享),并结合强化学习技术进行训练,成功降低了隐私信息泄露风险高达40%,同时保持了任务完成能力。研究仅使用约700个合成数据样本进行训练,却在真实场景测试中展现出色效果,为构建更隐私友好的AI助手提供了实用方法。

SkyReels-Audio:让肖像"动"起来 - Skywork AI开创全能音频驱动的人像视频生成技术

SkyReels-Audio:让肖像"动"起来 - Skywork AI开创全能音频驱动的人像视频生成技术

SkyReels-Audio是Skywork AI团队开发的全能音频驱动人像视频生成框架,能将静态图像或视频与语音输入结合,生成高度逼真、唇形同步的说话人像视频。基于预训练的视频扩散变换器构建,该技术支持无限长度视频生成和编辑,提供多模态控制能力。通过混合课程学习策略和双向潜在融合技术,该模型在身份一致性、面部表情自然度和唇形同步精度上取得了突破性进展,为数字内容创作、教育和娱乐领域带来革命性可能。

波士顿大学研究揭秘:为什么大脑"练得越多,想得越少"?神经科学家发现思维自动化的惊人真相

波士顿大学研究揭秘:为什么大脑"练得越多,想得越少"?神经科学家发现思维自动化的惊人真相

波士顿大学研究团队通过先进脑成像技术首次揭示了技能从需要意识控制转变为自动化执行的完整神经过程。研究发现大脑存在两个关键网络:认知控制网络负责新技能学习,程序性学习网络负责自动化执行。随着练习增加,控制权从前者转向后者,释放认知资源处理新挑战。研究还发现了三种不同的个体学习类型,为个性化教育和康复治疗提供科学依据,并为人工智能发展提供生物学启发。

NVIDIA团队突破性研究:让AI推理像魔法一样又快又准的超级压缩术

NVIDIA团队突破性研究:让AI推理像魔法一样又快又准的超级压缩术

NVIDIA与爱丁堡大学联合团队于2025年提出的动态内存稀疏化技术,通过智能的延迟删除策略实现AI推理系统的高效内存管理,在保持准确性的同时大幅提升处理速度。该技术只需1000个训练步骤就能实现8倍压缩率,在多项复杂推理任务上显著优于传统方法,为AI技术的普及应用开辟了新路径。

清华大学团队颠覆自动驾驶"眼睛":用AI生成模型让汽车像人一样"看懂"3D世界

清华大学团队颠覆自动驾驶"眼睛":用AI生成模型让汽车像人一样"看懂"3D世界

清华大学团队利用扩散模型革新自动驾驶3D感知技术,通过生成式建模取代传统判别式方法,让AI系统具备类人想象推理能力。该方法在遮挡区域预测准确率提升15%,并显著改善下游规划任务性能,为自动驾驶向更智能安全方向发展提供重要技术突破。

H Company的AI网页冲浪高手:开源模型如何以超低成本击败GPT-4?

H Company的AI网页冲浪高手:开源模型如何以超低成本击败GPT-4?

H Company研究团队开发了开源网页操作AI系统Surfer-H,配备专门训练的Holo1视觉语言模型。该系统在WebVoyager基准测试中达到92.2%的成功率,媲美GPT-4性能但成本仅为其四分之一。研究团队还发布了专门的网页定位测试集WebClick,并完全开源模型权重,为AI技术民主化做出重要贡献。

通过奖励优化图像描述:让多模态大模型拥有推理能力而不用重新训练视觉模块

通过奖励优化图像描述:让多模态大模型拥有推理能力而不用重新训练视觉模块

这项研究提出了RACRO框架,通过奖励优化图像描述来解决多模态推理问题,避免了传统方法中昂贵的视觉-语言重新对齐过程。研究表明,通过将视觉感知与推理解耦并使用强化学习优化图像描述质量,即使只使用较小模型训练,也能在推理阶段无缝适配更强大的语言模型,实现性能显著提升。实验证明RACRO在多项多模态推理基准上取得了领先结果,展示了极强的可扩展性和即插即用兼容性。

FusionAudio-1.2M:当AI学会像人类一样"听懂"声音的故事——香港中文大学(深圳)团队的突破性研究

FusionAudio-1.2M:当AI学会像人类一样"听懂"声音的故事——香港中文大学(深圳)团队的突破性研究

香港中文大学(深圳)研究团队开发出FusionAudio-1.2M数据集,创新性地融合音频、视觉、语音和音乐信息来生成详细的音频描述。该研究采用多模态专家系统和大语言模型整合的两阶段方法,构建了包含120万高质量音频描述的大规模数据集。实验表明,使用该数据集训练的AI模型在音频理解和检索任务上显著超越现有方法,为智能语音助手、自动驾驶等领域带来重要应用前景。

蚂蚁数科加速推进AI战略,设立“AI+产业创新”实验室
2025-06-10

蚂蚁数科加速推进AI战略,设立“AI+产业创新”实验室

AI技术创新是推动企业智能化升级的核心驱动力。

浙江大学推出动态场景重建的新方法——FreeTimeGS,知名KOL:这就是未来Midjourney要实现的效果

浙江大学推出动态场景重建的新方法——FreeTimeGS,知名KOL:这就是未来Midjourney要实现的效果

浙江大学与吉利汽车研究院提出了一个叫做FreeTimeGS的新方法,通过一种全新的思路给予高斯基元"自由",让它们能够在任意时间和位置出现,从而更好地重建具有复杂动作的动态场景。

2025-06-10

爱簿智能推出E300 AI计算模组:50TOPS国产算力,赋能边缘AI全场景高效部署

国产可控边缘AI基座来了!爱簿E300 AI计算模组以50TOPS国产算力护航关键场景,可实现32B大模型本地轻量化部署!

从愿景到现实 聚焦生成式AI全球实践 2025亚马逊云科技中国峰会将于6月19日在上海开幕

2025亚马逊云科技中国峰会将于6月19日-20日在上海世博中心举行。本届峰会将汇聚来自亚马逊云科技纽约、伦敦、巴黎等峰会的全球云计算与AI领域权威专家以立足国际的先锋视角,解读生成式AI在全球范围内的落地实践等前沿趋势。

当AI遇上癌症诊断:上海交大团队如何让机器"看懂"细胞的秘密

当AI遇上癌症诊断:上海交大团队如何让机器"看懂"细胞的秘密

上海交通大学研究团队开发出革命性AI癌症诊断系统,通过深度学习技术分析50万张细胞图像,实现94.2%的诊断准确率,诊断时间从30分钟缩短至2分钟。该系统不仅能识别多种癌症类型,还具备解释性功能,已在多家医院试点应用。研究成果发表于《Nature Communications》,展示了AI在精准医疗领域的巨大潜力。

机器人学会3D"变身术":南华理工大学让机器人像人类一样理解物体运动

机器人学会3D"变身术":南华理工大学让机器人像人类一样理解物体运动

南华理工大学等机构提出3DFlowAction方法,让机器人通过预测物体3D运动轨迹来学习操作技能。该研究创建了包含11万个实例的ManiFlow-110k数据集,构建了能预测三维光流的世界模型,实现了跨机器人平台的技能迁移。在四个复杂操作任务上成功率达70%,无需特定硬件训练即可在不同机器人上部署,为通用机器人操作技术发展开辟新路径。

东京大学团队突破视角局限:第一次让机器同时用"我的眼睛"和"他人的眼睛"看世界

东京大学团队突破视角局限:第一次让机器同时用"我的眼睛"和"他人的眼睛"看世界

这是首个系统性探索跨视角协作智能的综合性研究,由南京大学、东京大学等顶尖机构联合完成。研究团队首次将"第一人称视角"与"第三人称视角"的协作应用进行了全面梳理,提出了三大技术方向和十三个关键任务,涵盖从智能厨房到手术机器人的八大应用场景。这项突破性工作为人工智能向人类认知迈进提供了重要的技术路径和理论基础。