基于转换器的生成式预训练模型

基于转换器的生成式预训练模型

中文名 基于转换器的生成式预训练模型 
简称 GPT
目录导航

研发历史

2018年6月11日,OpenAI发表了一篇名为《通过生成式预训练提高语言理解能力》(Improving Language Understanding by Generative Pre-Training)[6]的论文,在其中介绍了“基于转换器的生成式预训练模型”(GPT)。[1]

模型应用

ChatGPT (Chat Generative Pre-trained Transformer,基于转换器的交互式生成式预训练模型)是由OpenAI于2022年11月30日发布的一款聊天机器人。它采用的是GPT-3.5,应用了“基于人类反馈的强化学习方案”(Reinforcement Learning from Human Feedbac,RLHF)。

BioGPT是由微软开发的一种专注于生物医学领域的GPT模型。

ProtGPT2是一种专注于蛋白质研究的GPT模型。

版本历史

版本 参数数量 训练数据
GPT-1 1.2亿 BookCorpus:是一个包含7000本未出版书籍的语料库,总大小为4.5 GB。这些书籍涵盖了各种不同的文学流派和主题。
GPT-2 15亿 WebText:一个包含八百万个文档的语料库,总大小为40 GB。这些文本是从Reddit上投票最高的4,500万个网页中收集的,包括各种主题和来源,例如新闻、论坛、博客、维基百科和社交媒体等。
GPT-3 1750亿 一个总大小为570 GB的大规模文本语料库,其中包含约四千亿个标记。这些数据主要来自于CommonCrawl、WebText、英文维基百科和两个书籍语料库(Books1和Books2)。

词条图册

版本 参数数量 训练数据
GPT-1 1.2亿 BookCorpus:是一个包含7000本未出版书籍的语料库,总大小为4.5 GB。这些书籍涵盖了各种不同的文学流派和主题。
GPT-2 15亿 WebText:一个包含八百万个文档的语料库,总大小为40 GB。这些文本是从Reddit上投票最高的4,500万个网页中收集的,包括各种主题和来源,例如新闻、论坛、博客、维基百科和社交媒体等。
GPT-3 1750亿 一个总大小为570 GB的大规模文本语料库,其中包含约四千亿个标记。这些数据主要来自于CommonCrawl、WebText、英文维基百科和两个书籍语料库(Books1和Books2)。

相关百科
返回顶部
产品求购 求购