语言模型扩展到亿个参数以实现突

ditihekhatun17 · Post by **ditihekhatun17** » Mon May 20, 2024 7:03 am

破性性能年月日发布者研究中心软件工程师和发布者研究中心软件工程师和近年来用于语言理解和生成的大型神经网络在广泛的任务中取得了令人印象深刻的成果。首先表明大型语言模型可用于小样本学习并且无需大规模特定任务数据收集或模型参数更新即可取得令人印象深刻的结果。最近的例如和通过缩放模型大小使用稀疏激活的模块以及在更大的数据集上进行训练在许多任务上取得了最先进的少数结果。来源多样。然而当我们突破模型规模的极限时在理解小样本学习所出现的能力方面仍有大量工作要做。去年谷歌研究院宣布了我们对的愿景这是一个可以跨领域和任务泛化且高效的单一模型。

实现这一愿景的一个重要里程碑是开发新的系统来协调加速器的分布式计算。在使用扩展语言模型中我们介绍了语言模型这是一个使用系统训练的亿个参数仅密集解码器的模型它使我们能够跨多个模型 巴拉圭电子邮件列表 高效地训练单个模型。。我们在数百个语言理解和生成任务上评估了发现它在大多数任务中都实现了最先进的小样本性能并且在许多情况下都具有显着的优势。随着模型规模的增加跨任务的性能得到提高同时也释放了新的功能。使用训练亿参数的语言模型展示了系统的首次大规模使用将训练扩展到个芯片这是迄今为止用于训练的最大的基于的系统配置。训练在两个之间使用级别的数据并行性进行扩展同时在每个内使用标准数据和模型并行性。

与大多数以前的相比这是规模的显着增加之前的要么在单个例如上进行训练要么使用管道并行性跨集群扩展到个或使用多个最大规模为个芯片。的训练效率达到了的硬件利用率这是该规模的法学硕士迄今为止达到的最高效率。这是由于并行策略和块的重新表述相结合允许并行计算注意力层和前馈层从而实现编译器优化的加速。结合使用英语和多语言数据集进行训练其中包括高质量的网络文档书籍维基百科对话和代码。我们还创建了一个无损词汇表它保留所有空白对于代码尤其重要将词汇表外的字符拆分为字节并将数字拆分为单独的标记每个数字一个。语言推理和代码任务的突破性能力在许多非常困难的任务上显示出突破性的能力。