Skip to content

ChatGPT原理介绍

ChatGPT原理介绍

简介

人工智能时代来临

我们正处于AI的iPhone时刻。——黄仁勋(英伟达CEO)

ChatGPT 好得有点可怕了,我们距离危险的强人工智能不远了。——马斯克(Tesla/SpaceX/Twitter CEO)

以上的内容说明我们现在正处于一个技术大翻牌的时代,正如每次技术革命来临一样,如果能抓住每一次的技术革命机遇,就有可能迎来自己职业生涯的大逆转。

uml diagram

什么是ChatGPT

官网地址:https://chat.openai.com/

  • 产品形态: 聊天机器人。
  • 应用场景: 各个领域,强大到让人震惊。
  • 技术架构: 基于 GPT-3.5、GPT-4 架构的大型语言模型。

ChatGPT,全称聊天生成预训练转换器(英语:Chat Generative Pre-trained Transformer[2]),是 OpenAI 开发的人工智能聊天机器人程序,于 2022 年 11 月推出。该程序使用基于 GPT-3.5、GPT-4 架构的大型语言模型并以强化学习训练。ChatGPT 目前仍以文字方式交互,而除了可以用人类自然对话方式来交互,还可以用于甚为复杂的语言工作,包括自动生成文本、自动问答、自动摘要等多种任务。如:在自动文本生成方面,ChatGPT 可以根据输入的文本自动生成类似的文本(剧本、歌曲、企划等),在自动问答方面,ChatGPT 可以根据输入的问题自动生成答案。还有编写和调试计算机程序的能力。

ChatGPT 可写出相似真人的文章,并在许多知识领域给出详细和清晰的回答而迅速获得关注,从前认为的 AI 不会取代的知识型工作它也足以胜任,对金融与白领人力市场的冲击相当大,但是事实准确度参差不齐是其重大缺陷,并且基于意识形态的模型训练结果须小心校正。ChatGPT 于 2022 年 11 月发布后,OpenAI 估值已涨至 290 亿美元[7]。上线 5 天后已有 100 万用户,上线两个月后已有上亿用户[8]。目前 ChatGPT-3.5 为免费版本,ChatGPT-4 供 ChatGPT Plus 会员使用,且每三个小时只能发送 25 条消息。

如下图所示,ChatGPT本质其实就是一个基于大语言模型的聊天机器人产品。

uml diagram

ChatGPT 用途

  • Classification 分类
  • Generation 生成
  • Conversation 会话
  • Translation 翻译
  • Conversion 转换
  • Summarization 总结
  • Completion 完成 完形填空
  • Factual responses 事实回应
  • Inserting text 中间插入文字
  • Editing text 编辑文本角色转换

ChatGPT背后的公司——OpenAI

OpenAI(开放人工智能[6])是美国一个人工智能研究实验室,由非营利组织 OpenAI Inc,和其营利组织子公司 OpenAI LP 所组成。OpenAI 进行 AI 研究的目的是促进和发展友好的人工智能,使人类整体受益。——维基百科

官网地址:https://openai.com/

OpenAI发展历程
  1. 2015年:该组织于 2015 年由萨姆·阿尔特曼、里德·霍夫曼、Jessica Livingston、伊隆·马斯克、伊尔亚·苏茨克维、沃伊切赫·扎伦巴 (Wojciech Zaremba)、彼得·泰尔 等人在旧金山成立,他们共同认捐了$10 亿美元。 微软在 2019 年向 OpenAI LP 提供了$10 亿美元的投资,并在 2023 年 1 月向其提供了第二笔多年投资,据报导为$100 亿美元[12], 用于独家访问 GPT-4,这将为微软自己的 Bing Prometheus 模型提供支持[13]。
  2. 2016 年,OpenAI 宣称将制造“通用”机器人,希望能够预防人工智能的灾难性影响,推动人工智能发挥积极作用。
  3. 2017 年,OpenAI 仅在云计算上就花费了$790 万美元,占其职能支出的四分之一。 相比之下,DeepMind 2017 年的总支出为$4.42 亿美元。
  4. 2018 年 2 月,由于特斯拉为自动驾驶汽车开发人工智能,马斯克辞去了董事会席位,理由是与他作为特斯拉首席执行官的角色存在“潜在的未来(利益) 冲突”。 萨姆·阿尔特曼声称马斯克认为 OpenAI 已经落后于谷歌等其他公司,马斯克提议自己接管 OpenAI,但董事会拒绝了。
  5. 至 2018 年,OpenAI 的总部坐落于旧金山的米慎区,与伊隆·马斯克的另一座公司 Neuralink 在同一办公室大楼。[20]改革后,推出了商业化的 ChatGPT 等产品。
  6. 2019年,2019 年 3 月 1 日成立 OpenAI LP 子公司,目的为营利所用。该公司随后向其员工分配股权并与微软合作,宣布向该公司投资 10 亿美元。2019 年 7 月 22 日微软投资 OpenAI 10 亿美元,双方将携手合作替 Azure 云端平台服务开发人工智能技术。OpenAI 还宣布打算对其技术进行商业许可[24]。 OpenAI 计划“在五年内,而且可能更快”花费这 $10 亿美元。 萨姆·阿尔特曼表示,即使是 10 亿美元也可能不够,实验室最终可能需要“比任何非营利组织筹集到的资金都多的资金”来实现通用人工智能[26]。
  7. 2020 年 6 月 11 日宣布了 GPT-3 语言模型,微软于 2020 年 9 月 22 日获取独家授权。
  8. 2021 年,OpenAI 推出了 DALL-E,这是一种深度学习模型,可以从自然语言描述中生成数字图像。
  9. 2022 年 11 月 30 日,OpenAI 发布了一个名为 ChatGPT 的自然语言生成式模型,它以对话方式进行交互,预览版在前五天内收到了超过一百万的注册。但是该项目对一些包括中国大陆、香港在内的地区暂不可用。
  10. 2023 年 3 月 2 日,OpenAI 发布了官方 ChatGPT API,并允许第三方开发者利用该 API 将 ChatGPT 集成到他们的网站、产品和服务中。
  11. 2023 年 3 月 14 日,OpenAI 发布了 GPT-4,既作为 API(带有 waiting list)又作为 ChatGPT Plus 的一项功能。

AI 大模型应用

uml diagram

以上的图片很好的说明了,目前的人工智能产品和底层模型,还有中间层之间的关系。

  1. 应用层:代表利用了人工智能能力的应用产品,面向所有用户,没有技术门槛。
  2. 中间层:让你的LLM变得更强大,从事人工智能的开发者将例如GPT-4的大语言模型与外部计算和数据来源结合起来。针对大模型应用上的不足,LangChain 提供模块化组件进行优化。
  3. 模型层:大语言模型(英文:Large Language Model,缩写LLM),也称大型语言模型,是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。

GPT 模型图

以上这张图展示了GPT的整体架构和一个Transformer(深度学习模型)层。让我们简化对GPT的理解。GPT本质上是一堆Transformer层的堆叠。

GPT 发展历程

2018 年 6 月 11 日,OpenAI 发表了一篇名为《通过生成式预训练提高语言理解能力》(Improving Language Understanding by Generative Pre-Training)[6]的论文,在其中介绍了“基于转换器的生成式预训练模型”(GPT)。当时,表现最好的自然语言生成模型主要依靠大量手动标注数据的监督学习。这种依赖于人类监督学习的开发途径限制了模型在未经精细标注的数据集上的应用;许多语言(例如斯瓦希里语或海地克里奥尔语)也因缺乏能创建起语料库的文本资料而造成实际应用(如翻译和解释)上的困难[7];此外,训练超大模型相当耗时且开支非常昂贵。 相比之下,GPT 提出了一种“半监督(semi-supervised)”(后来普遍改称为“自监督”)的方法——先在没有标号的数据上面训练一个预训练模型,再在少量标号数据上面训练一个分辨的微调模型。[6]

  • GPT-3

生成型预训练变换模型 3 (英语:Generative Pre-trained Transformer 3,简称 GPT-3)是一个自回归语言模型,目的是为了使用深度学习生成人类可以理解的自然语言。GPT-3 是由在旧金山的人工智能公司 OpenAI 训练与开发,模型设计基于谷歌开发的 Transformer 语言模型。GPT-3 的神经网络包含 1750 亿个参数,需要 800GB 来存储,为有史以来参数最多的神经网络模型。该模型在许多任务上展示了强大的零样本和少样本的能力。OpenAI 于 2020 年 5 月发表 GPT-3 的论文,在次月为少量公司与开发人团释出应用程序界面的测试版。微软在 2020 年 9 月 22 日宣布取得了 GPT-3 的独家授权。

  • GPT-3.5

GPT-3.5 模型可以理解并生成自然语言或代码。我们在 GPT-3.5 系列中功能最强大且最具成本效益的模型是 gpt-3.5-turbo,它已针对聊天进行了优化,但也适用于传统的完成任务。

GPT-3.5

  • GPT-4

生成型预训练变换模型 4(英语:Generative Pre-trained Transformer 4,简称 GPT-4)是由 OpenAI 公司开发并于 2023 年 3 月 14 日发布的自回归语言模型[1][2]。Vox 称 GPT-4 从各方面来说都优于 OpenAI 之前发布的 GPT-3 和 GPT-3.5。

OpenAI 在宣布 GPT-4 时表示,它“比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。” [8] 他们制作了两个版本的 GPT-4,上下文窗口分别为 8,192 和 32,768 个令牌,比分别限制为 4,096 和 2,049 个令牌的 GPT-3.5 和 GPT-3 有了显着改进。[9]与其前身不同,GPT-4 可以将图像和文本作为输入;[10] 这使它能够描述不寻常图像中的幽默、总结截屏文本以及回答包含图表的试题。[11] 尽管有这些新能力,GPT-4 和它的前辈一样,仍然倾向于产生幻觉答案。[12]

如何使用

环境准备

  • 使用国内的ChatGPT服务:https://chatgpt.ceba.ceshiren.com/#/chat
  • 使用ChatGPT官方服务(需要代理):https://chat.openai.com/
  • 官方服务注册教程:注册教程
  • 霍格沃兹测试开发学社提供Token。

ChatGPT使用的注意事项

在正式使用ChatGPT之前需要注意以下问题:

  1. ChatGPT 是否值得相信?
  2. 可以将 ChatGPT 的输出用于商业用途吗?
  3. 核心概念 Token 与费用?
ChatGPT 是否值得相信?

这些模型是根据人类编写的来自互联网的大量数据(包括对话)进行训练的,因此它提供的响应可能听起来像人类。重要的是要记住,这是系统设计的直接结果(即最大化输出与训练模型的数据集之间的相似性),并且此类输出有时可能不准确、不真实,并且有时会产生误导

ChatGPT 没有连接到互联网,它偶尔会产生错误的答案。它对 2021 年之后的世界和事件的了解有限,也可能偶尔会产生有害的指令或有偏见的内容。 我们建议检查模型的响应是否准确。如果您发现答案不正确,请使用“不满意”按钮提供反馈。

可以将 ChatGPT 的输出用于商业用途吗?

根据内容政策和条款,您拥有使用 ChatGPT 创建的输出,包括转载、销售和商品化的权利——无论输出是通过免费还是付费计划生成的。

核心概念 Token 与费用
  • 基于 token 数量付费

ChatGPT 学习路线

级别 模块 语法基础
L1 ChatGPT应用
L2 GPT与代码分析结合
L3 AutoGPT 与 ChatGPT 插件开发 Python
L4 专属领域大语言模型应用 Python
L5 打造企业私有版大语言模型 Python

总结

  1. AIGC 时代来临。
  2. 什么是ChatGPT。
  3. ChatGPT背后的公司——OpenAI。
  4. 什么是GPT模型。
  5. ChatGPT使用教程。

相关学习资料