一、横空出世的chatGPT
1.1 chatGPT是由OPenAI公司发布的最新一代AI语言模型,是由自然语言处理(Natural Language Processing,NLP)中一项引人瞩目的成果。
1.2 很多人形容它是一个真正的“六边形战士”————不仅能聊天、搜索、翻译、撰写诗词、诗文和代码也不再话下,还能开发小游戏、作答美国高考题,甚至能做科研、当医生等。
1.3 GPT的英文全称是 Generative Pre-trained Transformer(生成式预训练转换器),是一种基于互联网可用数据训练的文本生成深度学习模型。
1.4 chatGPT并不完美,它的回答往往是大段的,过于冗长,看似逻辑自洽,但有时却是一本正经的“忽悠”。这也是此类模型难以避免的弊端,因为它本质上只是通过概率最大化不断生成数据而已,而不是通过逻辑推理来回复
1.5 遭到机构封禁,原因是生成答案的正确率太低 且数据皆是未经同意收集的,出了问题很难找到负责的对象
1.6 chatGPT除提供的结果不够准确外,还无法引用数据来源;几乎不知道2021年以后发生的事情。
二、ChatGPT是如何练成的
2.1 chatGPT从何而来?其本质是一个出色的NLP新模型。NLP是人工智能(AI)和机器学习(ML)的子集,专注于让计算机处理和理解人类语言。虽然语音是语言处理的一部分,但NLP最重要的进步在于它对书面文本的分析能力。
2.2 chatGPT是一种基于Transformer(转换器)模型架构的预训练语言模型。它通过庞大的文本语料库进行训练,学习自然语言的知识和语法规则。在被人们询问时,它通过对询问的分析和理解,生成答案。Transform模型提供了一种并行计算的方法,使得chatGPT能够快速生成答案。
2.3 Transform模型又是什么呢?需从NLP的技术发展历程来看,在Transform模型出现以前,NLP领域的主流模型是循环神经网络(Recurrent Neural Networks,RNN),再加入注意力机制(Attention)。
循环神经网络模型的优点是,能更好地处理有先后顺序的数据,如语言:而注意力机制就是让AI拥有理解上下文的能力。
但是“RNN + Attention”模型会让整个模型的处理速度变得非常慢,因为RNN是一个词接一个词进行处理的,并且,在处理长序列,如长文章、数据时,存在模型不稳定或者模型过早停止有效训练的问题。
基于Self-attention的Transformer相较于之前的Transformer模型 能够同时进行数据计算和模型训练,训练时长更短,并且训练得出的模型可用语法解释,也就是模型具有可解释性。
初代Transformer模型就有6500万个可调参数
2.4 庞大的训练数据集
GPT-1具有1.17亿个参数
GPT-2具有15亿个参数的模型
GPT-3的整个神经网络达到了惊人的1750亿个参数。
chatGPT及GPT-4参数并未公开
2.5 基于GPT-3模型并进行了微调的InstructGPT模型。
三、“ChatGPT+”无所不能
3.1 “chatGPT+无所不能”,所谓的“chatGPT+”效应,其实就是ChatGPT模型和其他人工智能程序的“组合拳”。其中一个例子就是 Wolfram Alpha 和 chatGPT 的结合。
WolframAlpha问答系统由“WolframAlpha语言之父”史蒂夫·沃尔夫勒姆开发的由其名字命名的Wolfram语言和计算知识搜索引擎 WolframAlpha问答系统由“WolframAlpha语言之父”史蒂夫·沃尔夫勒姆开发的由其名字命名的Wolfram语言和计算知识搜索引擎WolframAlpha
wolframAlpha其底层运算和数据处理工作是通过在后台运行的数学软件Mathematica实现的。
Mathematica支持几何、数值及符号计算,并且具有强大的数字以及图形图像的可视化功能。
3.2 让“chatGPT+”飞起来,“chatGPT+”效应,向很多在探索AIGC商业化落地的企业提供了参考和借鉴。
3.3 什么是AIGC?实际上,AIGC是一个组合词:AI+GC,意思是用人工智能生产内容(AI Generated Content)。
从内容创作方式来看,我们曾经听到的大多是PGC和UGC。其中,PGC是指专业内容生产者来生产内容。
比如,一个网站研究并制作出高质量科技评测视频的方式,就可以被称为PGC。在互联网时代,PGC在向大众传播信息方面发挥了重要作用。
UGC是指用户生成的内容,这些内容不是由专业内容生产者制作的,而是由普通用户自行制作的。比如,在社交媒体上发布的照片、评论和视频等就属于UGC方式。在移动互联网时代,UGC成了主流内容生产方式。
不管是PGC和UGC都是以人为主体进行内容生成和创作的,而AIGC的制作方从人或机构变成AI。
3.4 AI图像生成是AIGC目前发展势头最猛、落地产品众多的领域,根据使用场景,可分为图像编辑和端对端图像生成。图像编辑包括图像属性编辑和图像内容编辑。
端对端图像生成包括基于图像生成,如基于草图生成完整图像、根据特定属性生成图像等,以及多模态转换,如根据文字生成图像等。典型的产品或算法模型包括
EditGAN、Deepfake、Dall-E、Midjourney、Stable Diffusion、“文心·一格”等。
3.5 AI文本生成是AIGC中发展最早的一部分技术,根据使用场景,可分为非交互式文本生成和交互式文本生成。
非交互式文本生成包括内容续写、摘要/标题生成、文本风格迁移、整段文字生成。
交互式文本生成包括聊天机器人、文本交互游戏等。
典型的算法产品或算法模型有 JasperAI、Copy.ai、彩云小梦、AI DunGeon、chatGPT等。
3.6 AI视频生成可分为视频编辑,如画质修复、视频特效、视频换脸等,以及视频自动剪辑和端对端视频生成,如文字生成视频等。
3.7 AI音频生成中的部分技术已经较为成熟,被应用于多种C端产品。音频生成可分为语言合成(Text-to-speech,TTS)和乐曲生成俩类。
其中,TTS具有语音客服、有声读物制作、智能配音等功能。
乐曲生成可基于开头旋律、图片、文字描述、音乐类型、情绪类型等生成特定乐曲。
典型的产品或算法模型有DeepMusic、WaveNet、DeepVoice、MusicAutoBot等。
3.8 此外。AIGC还包括代码生成、游戏生成、3D生成等。
四、AI生成大流行
4.0 内容生产的全新变革 无论这些技术的概念将被如何定义,都意味着,在未来,人类社会一切有规律性、规则性的工作,将被ChatGPT或者比ChatGPT更进一步的AIGC取代,并且一些创造性工作会加速进入人机交互时代。
