最新文章
奥地利医科大学团队的"视觉魔法师":用文字描述让眼科AI模型变得更聪明

奥地利医科大学团队的"视觉魔法师":用文字描述让眼科AI模型变得更聪明

奥地利维也纳医科大学研究团队开发了RetFiner技术,通过让眼科AI模型同时学习OCT图像和医疗文字描述,显著提升了诊断准确率。该方法采用四种训练任务让AI模型建立图像与文字的深层联系,在三个主流眼科AI模型上实现了2-6个百分点的性能提升,为医学AI发展开辟了新方向。

BlenderFusion:谷歌DeepMind让普通图片秒变3D魔法工场

BlenderFusion:谷歌DeepMind让普通图片秒变3D魔法工场

这项由谷歌DeepMind研究团队开发的BlenderFusion技术,实现了将普通2D照片转换为可精确编辑的3D场景的突破。该系统通过三步流程:物体分层提取、Blender 3D编辑、生成式合成,解决了传统图像编辑中控制精度与真实感之间的矛盾,支持多物体操作、材质修改、场景重组等复杂编辑任务。

当AI开始懂电影:上海人工智能实验室重新定义机器视觉的电影语言理解

当AI开始懂电影:上海人工智能实验室重新定义机器视觉的电影语言理解

上海人工智能实验室联合多所高校开发出首个AI电影语言理解评测平台ShotBench,发现当前最先进AI模型在专业视觉理解方面存在重大缺陷。团队构建7万样本数据集ShotQA,开发出突破性模型ShotVL,在电影语言理解上创造新纪录,为AI辅助视频制作和创意产业变革奠定基础。

西安交通大学DenseDiT:让AI在现实世界"看图说话"不再是天方夜谭

西安交通大学DenseDiT:让AI在现实世界"看图说话"不再是天方夜谭

西安交通大学研究团队开发了DenseDiT,一个基于生成式AI的视觉分析框架,能在仅使用15张训练图片的情况下处理25种复杂现实场景的视觉任务。该系统巧妙利用已训练生成模型的视觉知识,通过参数复用和轻量级分支设计,在数据效率上比传统方法提升1000倍以上,为数据稀缺的AI应用场景提供了全新解决方案。

中国商业“新物种”:亚马逊上崛起的跨境新生代

中国商业“新物种”:亚马逊上崛起的跨境新生代

他们是一个全新的商业物种,一个由共同精神内核凝聚而成的群体一“跨境新生代”。

2025-07-01

瞄准AGI等四大前沿领域,蚂蚁集团2025“蚂蚁InTech奖”提名启动

蚂蚁集团正式启动2025“蚂蚁InTech奖”提名推荐工作,面向计算机科学领域的优秀青年学者与在读博士生,提供公益性科研资金支持。

2025-07-01

红帽OpenShift Lightspeed正式发布,生成式AI助力混合云生产力提升

全球领先的开源解决方案提供商红帽公司近日宣布正式发布红帽OpenShift Lightspeed。该产品是一款基于生成式AI(gen AI)的虚拟助手,已集成至红帽OpenShift。

让创新创造被更多看见,2025Inclusion·外滩大会创新者舞台全球征集正式启动!
2025-07-01

让创新创造被更多看见,2025Inclusion·外滩大会创新者舞台全球征集正式启动!

2025Inclusion·外滩大会创新者舞台公开征集创新项目,企业、团体、个人皆可报名。

2025-07-01

安富利:30载深耕中国市场,长期主义构筑可持续发展护城河

在电子行业百年发展长卷中,创立于1921年的安富利,始终以行动印证着企业创造社会价值的重要意义。

开亚客与亿客行竞相开发AI旅行智能体,将社交媒体转化为行程规划

开亚客与亿客行竞相开发AI旅行智能体,将社交媒体转化为行程规划

旅游预订巨头Kayak和Expedia正在开发基于AI的智能旅行助手,能够将社交媒体内容转化为实际行程。Kayak推出了基于ChatGPT的AI聊天助手,提供个性化旅行规划服务。Expedia则发布了Trip Matching功能,用户可发送Instagram旅行视频,系统自动生成相应行程。两家公司都强调在为用户提供便捷体验的同时,需要平衡用户控制权与AI代理的自主性,利用海量数据为"搜索型"用户简化复杂的旅行规划流程。

AI重塑电商格局:亚马逊沃尔玛百思买面临变革挑战

AI重塑电商格局:亚马逊沃尔玛百思买面临变革挑战

传统大型在线零售商的时代即将结束。OpenAI、Gemini等AI助手正在重新定义购物方式,消费者不再从零售商主页开始购物之旅。AI成为策展人和购物向导后,传统数字商城将面临死亡。这与十年前社交媒体颠覆新闻媒体的情况相似。零售商需要采用三种生存策略:价格领导、物流网络优势,以及内容咨询领导。未来将属于那些拥抱专业化、个性化和咨询能力的品牌。

香港大学团队突破多图理解难题:让AI像人类一样"看懂"图像之间的细微差别

香港大学团队突破多图理解难题:让AI像人类一样"看懂"图像之间的细微差别

香港大学团队开发了MiCo多图对比框架,通过自监督学习让AI学会像人类一样比较多张图片的细微差异。该方法无需人工标注,仅使用图像内在约束作为监督信号,在多项视觉理解测试中超越了GPT-4o等先进模型,为解决AI多图推理难题提供了新思路。

突破性空间推理技术:伊利诺伊大学研究团队开发出让AI"看懂"空间关系的新方法

突破性空间推理技术:伊利诺伊大学研究团队开发出让AI"看懂"空间关系的新方法

这项由伊利诺伊大学香槟分校研究团队开发的突破性AI技术,首次让机器具备了类似人类的空间推理能力。通过创新的细粒度偏好优化训练方法,SpatialReasoner-R1不仅能准确判断图片中的空间关系,还能提供完整的逻辑推理过程。在空间质量和数量任务上分别实现4.1%和9.0%的性能提升,为自动驾驶、机器人导航、增强现实等领域带来重要应用前景。

噪声一致性训练:让AI绘画工具一步到位的香港科技大学新突破

噪声一致性训练:让AI绘画工具一步到位的香港科技大学新突破

香港科技大学团队提出噪声一致性训练(NCT),这是首个专为一步生成器设计的原生控制添加方法。NCT通过在噪声空间进行一致性训练和边界约束,无需重新训练基础模型即可为预训练的一步生成器添加新的控制能力。实验显示该方法在保持生成质量的同时将速度提升50倍,在多种控制任务上超越传统方法,为AI图像生成的实用化提供了重要突破。

南开大学团队推出LLaVA-Scissor:让AI视频理解快如闪电的"语义剪刀"技术

南开大学团队推出LLaVA-Scissor:让AI视频理解快如闪电的"语义剪刀"技术

南开大学团队开发的LLaVA-Scissor技术通过创新的"语义连通组件"算法,实现了视频AI理解的高效压缩。该技术采用两步时空压缩策略,在保持99.7%准确率的同时将计算量减半,为解决视频AI系统计算瓶颈提供了突破性方案。

伊利诺伊大学新突破:让AI像搭积木一样改变照片中的物体位置

伊利诺伊大学新突破:让AI像搭积木一样改变照片中的物体位置

伊利诺伊大学研究团队开发出"生成式积木世界"系统,通过将照片分解成3D几何积木,让用户能够直观地编辑图像中物体的位置、大小和角度,同时保持原有质感。该技术突破了传统图像编辑在3D空间操作上的限制,为专业设计和普通用户提供了全新的创作工具。

NewsBreak团队推出DuaShepherd:让AI数学推理更聪明的双重奖励系统

NewsBreak团队推出DuaShepherd:让AI数学推理更聪明的双重奖励系统

NewsBreak团队与伊利诺伊大学合作开发DuaShepherd,这是一个创新的AI数学推理奖励模型。该系统独创性地结合了两种评估维度:步骤正确性判断和解题潜力评估,通过多任务学习和复合概率融合,在MATH500和ProcessBench测试中显著超越传统单一奖励模型,为AI数学推理提供了新的技术路径。

YouTube移动视频编辑器即将登陆iOS平台

YouTube移动视频编辑器即将登陆iOS平台

谷歌正准备将YouTube Create视频编辑应用带到iOS设备,距离该应用在Android平台独家发布已近两年。招聘信息显示,谷歌正在印度积极招聘工程师开发iOS版本。尽管YouTube Create提供免费移动视频编辑工具,但在与ByteDance的剪映和InShot的竞争中明显落后。数据显示,剪映第二季度Android下载量达6600万次,而YouTube Create仅不到50万次。

伊利诺伊大学团队突破传统动画技术:让虚拟角色拥有真实的物理身体

伊利诺伊大学团队突破传统动画技术:让虚拟角色拥有真实的物理身体

伊利诺伊大学团队开发了PhysRig系统,突破传统角色动画技术局限。该系统通过嵌入真实物理原理,将虚拟角色建模为具有弹性材料特性的立体结构,解决了传统线性混合蒙皮技术中的体积变形、不自然弯曲等问题。研究创新性地提出材料原型概念,大幅降低参数学习复杂度,在多项评估中显著优于传统方法,为动画制作、游戏开发和虚拟现实应用提供了更真实的角色动画解决方案。

从童画到动画:让孩子涂鸦"活"起来的神奇技术——大湾区大学突破性研究成果

从童画到动画:让孩子涂鸦"活"起来的神奇技术——大湾区大学突破性研究成果

大湾区大学研究团队开发的FairyGen系统能够将儿童简笔画转换为完整动画故事。该系统通过智能故事规划、风格传播适配器和3D重建技术,让画中角色"活"起来并保持原画艺术风格。采用两阶段训练策略分离身份与运动学习,实现自然流畅的动画效果,为创意教育和个性化内容创作开辟新途径。