现如今,“新基建”已经成为城市产业新一轮竞争的发力点,“新基建”的推进数字化技术在行业中的进一步应用,助力城市产业升级,尤其是传统产业数字化转型的落地。12月18日,在新华网与中国科协学会学术部指导,新华网客户端与中国电子学会主办,至顶传媒承办,科技行者与GSMA协办的2020中国新基建领导力峰会上,中国信通院云计算与大数据研究所所长何宝宏、微软中国首席技术官韦青、富士通(中国)信息系统有限公司汽车事业总部总经理兼北京分公司总经理汪波就《新基建助力城市产业升级》展开分享。
从左至右:中国信通院云计算与大数据研究所所长何宝宏、微软中国首席技术官韦青、富士通(中国)信息系统有限公司汽车事业总部总经理兼北京分公司总经理汪波
用升级的眼光看新基建
何宝宏曾在之前很多场合讲过,新基建一直在路上,通信网络一直就是基础设施,直到互联网的诞生让通信网络变得通用,云计算是计算数字化,人工智能希望在通信和计算基础之上更好地扩展基础设施的范围,赋能更多的领域。并且新技术要赋能传统行业,因为传统行业的体量远远大于纯粹的数字经济领域。
“想要富,先修路。”这是老百姓的一句俗话,可以说基本诠释了所有的问题。汪波认为,旧基建解决了传统的基础设施,新基建解决的信息、数字的高速公路,因为只有解决好这个问题才能更好地推动产业发展,发展数字产业同时对传统产业赋能。
韦青则希望大家不要纠结于新和旧的概念,其实很多事情在早先就已经被定义,现在更多是内容得到强化,上升了一个台阶,就像城市升级,要在新的计算、存储和通讯上面升高一个台阶一样。从语言模型的角度来看,宇宙的本源由物质、能量、信息构成,第一、第二次工业革命用蒸汽机给人的四肢提升了能力,第四次工业革命则是物质、能量、信息用机器把人的能力提升。
按部就班的开展数字化转型
一谈到数字化转型我们谈的更多的是传统行业,传统行业在数字化的应用上一直是一个跟随者,在新基建的背景下传统产业是否能够逆袭成为示范者?韦青表示,把网络化、智能化、数字化包括在一起,用机器能力代替,对于现在的企业而言是非常重要的,需要从本源出发,从数据、模型、计算、通讯,再往上走到智能。
传统行业的发展建设有很多惯性思维,但是传统行业始终是追随者这是一个悖论。何宝宏认为,传统行业面对新技术,肯定会有一定的阻碍,在架构、人才、组织上去了解需要做什么学什么,这需要一个过程。
富士通经历了85年的发展,从最早的通信设备到计算机到大型服务器到超算到个人计算机再到ICT公司,可以称得上是一位长期的转型者。汪波总结了两句话,第一,与客户或者与市场共同成长;第二,持续创新。可以说制度创新、核心竞争力创新是富士通发展到现在最大的智慧。
数字化转型多学习,多实践
2015年,当时正值中国制造2025和工业4.0兴起的时期,当时富士通帮助一家上海企业推进信息化时还是选择打好基础,第一阶段将业务变成数据,第二阶段实现互联互通,到第三阶段再使用大数据、人工智能技术进行业务创新和改革,最终也成为中国智能制造试点单位。
传统行业在数字化人才储备上一直相对薄弱,韦青也认为最大的短板就是人,不仅仅是技术人才,决策者也有短板,不要拿旧的知识体系看新问题,企业人员知识更新不够快,需要大规模的进行知识沉淀和培训。
今年是新基建提出的第一年,明年又是“十四五”的开年。何宝宏也给出了今年的两个关键词:新基建和数据生产要素。当然在新的一年还要脚踏实地,多学习、多实践,因为在不确定的时代,实践是检验真理的唯一标准。
总结
未来企业需要真正回归本源,思考自身的核心竞争力,通过实践进一步实现创新,甚至产业的升级。同时峰会主办方也将在全国各个城市高新园区、产业园区展开新基建相关的调研访谈,发现数字经济新范式,总结数字化转型新案例,调研新基建发展新模式,勾勒出中国创新地图。可以预见,未来,在各界的共同努力下,中国的“新基建”定将为经济社会的繁荣发展提供更强有力地支撑。
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。