2018年6月11日,OpenAI发表了一篇名为《通过生成式预训练提高语言理解能力》(Improving Language Understanding by Generative Pre-Training)[6]的论文,在其中介绍了“基于转换器的生成式预训练模型”(GPT)。[1]
ChatGPT (Chat Generative Pre-trained Transformer,基于转换器的交互式生成式预训练模型)是由OpenAI于2022年11月30日发布的一款聊天机器人。它采用的是GPT-3.5,应用了“基于人类反馈的强化学习方案”(Reinforcement Learning from Human Feedbac,RLHF)。
BioGPT是由微软开发的一种专注于生物医学领域的GPT模型。
ProtGPT2是一种专注于蛋白质研究的GPT模型。
版本 | 参数数量 | 训练数据 |
---|---|---|
GPT-1 | 1.2亿 | BookCorpus:是一个包含7000本未出版书籍的语料库,总大小为4.5 GB。这些书籍涵盖了各种不同的文学流派和主题。 |
GPT-2 | 15亿 | WebText:一个包含八百万个文档的语料库,总大小为40 GB。这些文本是从Reddit上投票最高的4,500万个网页中收集的,包括各种主题和来源,例如新闻、论坛、博客、维基百科和社交媒体等。 |
GPT-3 | 1750亿 | 一个总大小为570 GB的大规模文本语料库,其中包含约四千亿个标记。这些数据主要来自于CommonCrawl、WebText、英文维基百科和两个书籍语料库(Books1和Books2)。 |
版本 | 参数数量 | 训练数据 |
---|---|---|
GPT-1 | 1.2亿 | BookCorpus:是一个包含7000本未出版书籍的语料库,总大小为4.5 GB。这些书籍涵盖了各种不同的文学流派和主题。 |
GPT-2 | 15亿 | WebText:一个包含八百万个文档的语料库,总大小为40 GB。这些文本是从Reddit上投票最高的4,500万个网页中收集的,包括各种主题和来源,例如新闻、论坛、博客、维基百科和社交媒体等。 |
GPT-3 | 1750亿 | 一个总大小为570 GB的大规模文本语料库,其中包含约四千亿个标记。这些数据主要来自于CommonCrawl、WebText、英文维基百科和两个书籍语料库(Books1和Books2)。 |