二 神奇的AIGC
AI技术的飞速进步,正以前所未有的方式重塑着内容创作的边界。想象一下,在短短几十秒之内,一台机器就能构思并生成一首旋律优美、情感丰富的乐曲,其水准足以媲美那些经过数年乃至数十年音乐创作磨砺的作曲家,这无疑是对传统艺术创作模式的一次深刻挑战与革新。
而这样的能力,仅仅是AIGC(AI Generated Content,人工智能生成内容)冰山一角。如今,AI已经跨越了单一的艺术形式,展现出在多个领域内容创作上的无限潜力。从文学创作的文本生成,到视觉艺术的图像绘制,再到音频与视频制作的全面覆盖,AIGC正以其独特的魅力,成为社交媒体上的热门话题,频繁刷爆朋友圈,引领着内容创作的新风尚。
1 使用AIGC生成文本、图片、音乐、视频
当前存在各种各样的AIGC模型,比如进行文本对话的GPT、生成图片的DALL-E、生成视频的Runway和Sora以及生成音乐的sunoAI等等,它们都在各自对应的领域发挥着重要作用。
- GPT是Generative Pre-trained Transformer的缩写,是一种基于人工神经网络的机器学习模型。它由OpenAI开发,通过无监督学习的方式,利用海量文本数据学习语言的统计规律和模式,从而能够生成连贯、有逻辑的文本。GPT模型由多个Transformer架构组成,这种架构基于自注意力机制,能够有效处理序列数据。
- DALL-E 3是OpenAI公司最新推出的人工智能工具,使用了深度学习技术,可以识别复杂的图像结构和图形。此外,DALL-E 3还可以根据自然语言的文本描述创建图像和艺术形式、根据图像生成文本描述,这种功能使得DALL-E 3可以作为一种有用的工具,用于图像分析、图像识别等任务。
- Runway是一个基于人工智能和机器学习的创意工具平台,专注于为创作者提供各种AI驱动的功能,以简化创意过程并提升工作效率。它集成了多个AI模型,支持视频编辑、图像处理、文本生成等多种功能。
- Sora是OpenAI新推文生视频大模型,可据用户文本生成最长60秒逼真视频,深度模拟物理世界,构建多角色复杂场景。承袭DALL-E 3画质与指令能力,理解用户需求。为视频创作者、电影人及学生带来无限创意空间,是OpenAI推动AI理解模拟动态物理世界计划的一环,标志AI在理解互动真实场景上的重大进展。
- Suno AI音乐是一个专业高质量的AI歌曲和音乐创作平台,用户只需输入简单的文本提示词,即可根据流派风格和歌词生成带有人声的歌曲。该AI音乐生成器由来自Meta、TikTok、Kensho等知名科技公司的团队成员开发,目标是不需要任何乐器工具,让所有人都可以创造美妙的音乐。Suno还与微软合作,支持直接通过微软的 Copilot 调用其插件生成音乐。Suno最新已将音乐生成模型升级到V3版本,可生成2分钟的歌曲。
2 生成式模型
在2022年以前,AI生成的内容并不符合现实生活中的图像结构、无法理解人脸等复杂物体的整体构成,随着数据质量和数量的提升、算力的增强,基于Transformer,生成式对抗网络,扩散模型等优秀深度学习算法,大模型出现了科学家无法解释的"涌现"能力,人工智能越来越接近人类智能,并在某些任务上的表现已经远远超过人类。
- Transformer模型是一种深度学习架构,主要用于自然语言处理(Natural language processing,NLP)和其他序列到序列任务。它由Google团队在2017年提出,核心创新是自注意力机制(self-attention mechanism),使模型能够同时考虑输入序列中的所有位置。这种架构允许并行处理数据,显著提高了训练速度和效果。
- 生成式对抗网络(GAN)是一种深度学习模型,由两个神经网络组成:生成器(Generator)和判别器(Discriminator)。生成器负责生成逼真的数据,而判别器则判断这些数据是真实的还是生成的。两者通过对抗训练,生成器不断改进以“欺骗”判别器,最终生成高质量的模拟数据。
- 扩散模型(Diffusion Model)是一种生成模型,通过模拟数据从简单分布(如高斯分布)逐步向复杂分布演变的过程,来生成高质量的数据样本。其核心思想是通过不断添加噪声并学习逆过程,将噪声还原为原始数据。
3 AIGC特点
AI 生成的内容有许多特点。
- 首先,AI 非常高效。AIGC能够在短时间内生成大量内容,不受时间和空间限制,7*24小时持续输出。相比之下,人类创作者可能需要花费更长的时间和精力来完成同等数量的工作。
- 其次,与人类一样,AI 具有持续学习能力。一些先进的AIGC模型具有自我学习和优化的能力,能够通过大量数据不断提升自己的生成质量,逐渐接近甚至超越人类的创作水平。
- 最让人惊叹的是,AI 可以自行从大量数据中寻找规律、挖掘模式。没有人教它语言的规则和结构,它就能生成高质量的文章;没有人教他如何构图、如何谱曲,它却创作出了不同风格的触动人心的艺术作品。
长久以来,创造力都被认为是人类独享的宝贵能力,是人类区别于地球上其他生灵的重要特征之一,更是人类科技发展的重要动力源泉。AI 展现出的高超创作能力,让人类觉得自己不再独特。
4 AIGC应用
AIGC已经渗透到我们生活的方方面面。AIGC技术正逐步渗透到各个行业,为教育、电商、医疗等领域带来创新和变革。
- 在教育行业,AIGC成为学习的有效推动力,帮助你改代码,帮助你做规划。比如我们可以让GPT给出一个具体的学习人工智能技术的规划。
- 在电商行业,使用AIGC进行虚拟试衣,生成各种风格的写真,节省了电商商家们大量时间与金钱成本,不止如此,顾客同样可以使用AIGC进行试穿,又直观又方便又省事。
- 在医疗行业,随着技术的不断迭代更新,各种AI生成式模型也已经在疾病预防、检测以及治疗上面发挥举足轻重的作用。
不止如此,AIGC不单单可以摆出它所学习过的知识,它现在已经可以理解人类的“美”的含义,在设计优化领域大放异彩。
- 在建筑设计方面,AIGC可以根据参考图和提示词设计建筑,也可以对不满意的地方进行局部重塑。再简单的草图,它都能帮你生成特定场景、特定风格的建筑。
- 来到高深的工业设计模块,对AIGC来说,产品外观设计、款式优化与改良都不在话下,从电钻到汽车,AIGC都可以轻松设计。
- 甚至我们的艺术领域,AIGC也在其中大放异彩。从人物设计到海报制作,从图片制作到视频生成,始终少不了AIGC的身影。
5 AIGC与生活
AIGC当然也有更贴近人们生活的一面。
- 现在,在许多游戏就使用了AIGC技术。比如,可以利用AIGC来实现智能角色控制,生成游戏故事,优化游戏画面等。
- 除此之外,现在电视上好多宣传视频、广告视频都是由AI制作的, AIGC可以快速生成多种风格的视频,激发创作者的灵感。
- 还有近几年我们经常提到的数字人,从动作、表情到声音可以完全由AI生成。我们身边的数字人会越来越多,越来越像真人,提供24小时不间断的服务,提升我们的交互体验。
6 AIGC的缺陷
同样地,AIGC也并不是十全十美,它目前还存在相当多的缺陷。
- 在图像生成方面,AIGC有时对人体的理解还不是很到位,经常生成出一些不符合正常人体结构的图像。而且,AIGC对于中国成语的理解也只是浮于表面,效果糟糕。
- 在视频生成方面,AIGC虽然已经可以较好地生成一些动作较慢的视频,但对于动作幅度较大或场景较复杂的视频生成仍需改进,大部分情况下虽然保证了画面的连贯性,但无法保证画面的主体一致性。
- 在音频生成方面,AIGC在断句以及多音字上的表现也不尽如人意,不仅如此,AI生成的音频现在还很难具备人与人交流时的情感。
- 在文本交流对话方面,虽然早就出现GPT这种大模型证明AIGC在该领域的优越性,但在出现一些生活中不常见的、或者反逻辑的问题时,AIGC的答案也不一定就很完美。
综上所述,现在的AIGC技术还不够成熟,经常犯错,不仅如此,AIGC的生成效果也要受到不同模型、不同训练方式、不同提示词的影响。
所以,怎么更好的使用AIGC技术和工具也是一门学问。AIGC在提升我们工作效率的同时,也催生了一些新的工作岗位,比如AIGC提示词工程师、AIGC艺术设计师、AIGC剪辑师,还有提升大模型能力的大模型算法工程师,提高数据质量的数据标注工程师等等。未来许多的工作岗位肯定多多少少都与AI有关系。
7 AIGC的危害
AI 已经让我们的生活更智能了,未来一定会帮我们完成繁琐重复的日常工作。我们也要确保AI做好“助手”的角色。虽然AIGC技术可以提升创作效率,但目前也出现了不少问题。
AIGC的不正当使用,有可能侵犯知识产权和个人隐私,“春风案”因AIGC产物的所属权产生纠纷,“奥特曼案”因未经允许使用奥特曼进行AIGC创作造成侵权,还有不法分子利用AI换脸和拟声技术进行欺诈;更有甚者使用AI制造假新闻上传至社交平台,甚至有可能影响社会正常运转。
以防AIGC出现更严重的问题,我国近些年出台了《互联网信息服务深度合成管理规定》和《生成式人工智能服务管理暂行办法》等法律法规,将确保AIGC在合法、透明的框架内发展。
展望未来,AIGC将为我们带来更多机会和可能性。在学术研究、商业创新和日常生活中,AIGC会成为重要助手。希望大家积极参与这场技术革命,共同探索AIGC的潜力,创造更加智能、便捷和美好的未来。
8 AIGC的展望
AI 还能生成什么内容?
叠加到真实世界的虚拟景物,模拟飞行时看到的以假乱真的飞机外场景,让具身智能体学习真实世界物理规律的仿真世界,将城市内所有物体数字化的数字孪生城市,以及元宇宙中的另一个全新的世界。