从AI作画、AI编曲到AI生成视频,越来越“聪明”的AI带来了一种全新的内容生产模式,AIGC。
在过往数十年里,人类获取的内容大致分为两类:PGC(专业生产内容)、UGC(用户生产内容)。AIGC的出现,使得内容生产模式再次多样化,同时,也让人类对数字世界的依赖程度在潜移默化中进一步加深。
据IDC统计数据显示,2021年全球VR/AR终端出货量达到1123万台。作为元宇宙入口,VR/AR的千万销量也让人们开始思考,相较于互联网,更复杂的元宇宙的内容应该如何生产?
AIGC的出现为元宇宙的内容生产提供了一个新思路。
然而,就在元宇宙尚且处于萌芽期、AIGC还未进化完成的2022年,身处AIGC大流行中,一些新的问题开始浮出水面。
AI续命良药
2016年,Alpha Go战胜世界围棋大师李世石,由深度学习引领的第三波人工智能浪潮达到顶峰,随后,人工智能再次归于沉寂,尤其在全球经济下滑趋势的影响下,人工智能的火苗开始变得微弱。
“我们原本看好的一些人工智能头部企业(这期间)在上市时并不顺利,很多人工智能企业不得不面对经营压力,”回顾过去几年人工智能企业发展历路,中国信通院云计算与大数据研究所内容科技部副主任石霖如是说。
这时的人工智能亟需一款现象级产品提振整个行业,AIGC适时出圈成了人工智能的续命“良药”。
所谓AIGC,实际上是一种利用人工智能算法自动生成内容的技术。
AIGC的应用早已有之,早在2011年,美国《洛杉矶时报》就已经开始研发面向地震领域的新闻写作机器人Quakebot。2013年3月,Quakebot因率先报道了南加州发生的4.4级地震,一时引起社会关注。随后,包括路透社、彭博社、《华盛顿日报》、《纽约时报》纷纷引入写作机器人,自动化新闻成了AIGC最早的应用形式。
2022年,在美国科罗拉多州博览会的美术比赛中,一位名为Jason Allen的游戏设计师凭借AI绘画工具Midjourney生成的作品「Thétre D’opéra Spatial」拿下了数字艺术/数码摄影竞赛冠军,这一消息一经公布,迅速引起了广泛的社会关注。
而这,还不是AIGC在这一年里唯一一条全球范围内的热搜。
2022年12月5日,OpenAI首席执行官Sam Altman在社交媒体上发文称,OpenAI训练的大型语言模型ChatGPT截至当日已突破100万用户。这时,ChatGPT上线仅仅五天,而如今的硅谷四巨头之一的Facebook最初获得百万注册用户花了有10个月之久。
同伴客数据首席科学家马志博分析称,“OpenAI本身是一个非盈利组织,但它发布的chatGPT又能在一周之内获得百万用户,尽管震惊的资本市场无法为其做出估值,但如果有企业能够将技术服务或技术商业落地做好,资本市场还是会设计出一套估值体系来赚取这波红利。”
资本与技术向来都是相伴相生,也只有资本能够为技术铺出一条迅速通向商业应用的道路。
AIGC四重限制
从自动化新闻到ChatGPT,AIGC演进已有十年之久,不过,清华大学继续教育学院数字化学习主管李璇认为,如果将AIGC划分为雏形、标准、完备、高超、极致五个阶段的话,现在的AIGC也仅仅是初具雏形。
今年AIGC能够爆火,一个很重要的原因在于Stable Diffusion模型的开源。2022年8月,就在Stability AI发布Stable Diffusion时,该公司还一并将这一模型的权重和代码对外开源。
NVIDIA高级解决方案架构师唐康祺表示,“Stable Diffusion模型很小,大概只有十几个G,只需要一台20系列的GPU就能跑起来,而且由文本生成图片的速度只需要大概一分钟(自己部署开源模型只要十几秒),这在之前是无法想象的。”
不过,唐康祺也指出,AIGC要大规模商用部署,仍然存在四个局限:
第一,算力的局限,虽然Stable Diffusion使用起来很方便,但整个模型的训练成本还很高,这类模型的训练一般都需要516块顶配的安培GPU,数十万小时的训练时间,训练成本一般都要在百万美元量级;
第二,数据来源的局限,Stable Diffusion模型训练所用的数据是目前全球最大的开放图像-文本对数据集LAION-5B,chatGPT模型的训练数据则来自于维基百科和一些问答论坛,数据产权归谁所有?数据“制造商”之后是否会对数据使用有所限制?这些也是未来需要明晰的问题;
第三,准确使用触发词的局限,Stable Diffusion模型要求输入的触发词足够精确,表达的含义足够清晰,如此才能更容易创造出使用者想要的内容;
第四,三维模型生成的局限,要到真正生产元宇宙内容时,必然会涉及三维模型,目前三维模型生成上还有很大的提升空间,包括在CG(计算机图形学)方面专业知识的提升等。
这四重限制,使得AIGC要真正走向大规模商用,尤其生产出真正属于元宇宙独有的内容,还有很长的路要走。
AI新技能,人类新挑战
尽管AIGC规模商用长路漫漫,但作为未来生产力工具之路已经开始明晰。
对于未来AIGC,乃至整个AI技术的发展,李璇认为,“就像科幻片中的场景一样, 真实世界中的体力或脑力劳动被机器人替代,虚拟世界中的体力或脑力劳动被虚拟人替代的场景或许在不远的未来就会发生,未来市场中,只有需要体验感的工作,才需要人类亲自参与其中。”
此外,李璇也指出,随着AIGC带来的AI工具越来越多,我们现在生活、工作中出现了几个方面的“遮蔽”:
第一,信息“遮蔽”,人工智能帮我们做出「选择」的同时,信息茧房也就逐渐生成,例如我们经常用到的APP,你喜欢看的那些内容会不断为你叠加推送,你遇到的信息壁垒会越来越多, 信息茧房也会越来越大;
第二,器官“遮蔽”,未来VR、AR这样的时空流,它的密度和含量会越来越大,这时就会出现信息的“胶状体”,这类信息会发生折射、歪曲、模糊;
第三,交互“遮蔽”,随着AI和机器人的发展,人类与平台越来越多,这类交互实际上是与非人类进行的交互,这类交互可能会导致资本控制或平台控制的最大化。
面对这样一个即将到来的新世界,我们应该如何突破“茧房”、避免“遮蔽”,在充满AI的元宇宙里更好地生活?
李璇给出的答案是:拥抱变革,终身学习,突破茧房,超越遮蔽,通过系统化思维、开源技术和工具,以及终身学习的心态,更好地在未来获得长足的发展。
好文章,需要你的鼓励
随着AI的使用、创新和监管混乱超过认可的标准,IT领导者只能开发内部方法来减轻AI风险,依靠框架、工具和他们的同事来正确使用AI。
几年前,当澳大利亚红十字会(Australian Red Cross)这个社区服务慈善机构开始进行数字化转型的时候,发现有很多不同的系统无法协同工作。如今,经过数据梳理和发挥作用,可以满足不断变化的需求。
在此次活动中,IBM展示了最先进的IBM Quantum Heron计算机是如何以比以前更高的精度和速度执行复杂的量子算法,同时为进行高级分子模拟的新方法铺平了道路。
想象一下,一个人工智能系统不仅能阅读文本或识别图像,还能够同时读、写、看、听和创造。这其实就是多模态人工智能的精髓。这些先进的多模态人工智能系统可以同时处理和整合多种形式的数据,包括文本、图像、音频甚至视频。这就像是赋予了人工智能一整套的感官。