DeepMind最新研究:Chinchilla模型参数数量仅为Gopher模型的四分之一,...

发布于: 雪球转发:0回复:0喜欢:0

在过去的几年里,大型语言模型(LLM)的规模取得了系列重要进展, 使其在自然语言处理中表现出越来越出色性能。

例如,DeepMind 最近展示的 Gopher 模型已经拥有 2800 亿参数,在语言建模、阅读理解和问答等任务中展现了领先的性能。而在此之后不久,名为“Megatron-Turing NLG” 的语言模型紧随其后发布,其参数量达 5300 亿个。

(来源:DeepMind)

迄今为止,大型语言模型训练发展的主要趋势是增加模型大小,通常并不会增加训练标记的数量。而语言模型的参数数目增长,也意味着相应地要付出更多的投资。

最近,来自 DeepMind 的一项研究发现,近年来,尽管这些大型语言模型随着模型规模的增长,已经实现了性能的大幅增强。但由于训练它们的数据量并没有相应成比例地增加,这些大型语言模型并没有实现最高的投入产出比。换言之,目前许多参数众多的大型语言模型,存在训练不足的缺陷。

这以研究结果被发表在题为《经过计算优化的大型语言模型的训练》(Training Compute-Optimal Large Language Models)的论文中。在该论文中,DeepMind 的研究团队围绕着这样的问题进行探索,即:在给定的固定 FLOPs 预算的前提下,应该如何在模型规模(或模型参数数量)的大小和训练数据量之间进行权衡?

针对这一问题,研究团队基于在训练数据量范围从 5 到 5000 亿不等、参数数量范围从 7000 万到 160 亿不等、超过 400 次训练的运行结果出发,对模型规模大小和训练持续时间之间的关系提出了三种预测方法进行优化。

这三种方法分别是:固定模型的大小,并对训练标记的数量进行调整;针对 9 个不同训练 FLOP,调节模型大小;拟合出参数损失函数,也就是将前两个方法的所有最终损失,建模作为模型参数数量和训练数据量之间的函数。通过这三种不同的预测方法,都得到了同样的结果,即模型大小每增加一倍,训练数据集大小也应当相应地加倍。

图 | DeepMind 研究团队发现的训练数据量与模型参数数量之间的最佳关系的预测(来源:DeepMind)

基于该结果,目前包括 DeepMind 发布的 Gopher 模型在内的许多大型语言模型,在大幅增加模型参数量的同时,并没有相应成比例地增加训练数据量,这是对于计算成本的巨大浪费。

事实上,该研究团队发现,对于 Gopher 所花费的成本来说,训练的数据量应当是其 4 倍才可真正实现计算预算的最大价值。也可以说,要想达到 Gopher 的性能,实际上只需要 Gopher 模型参数量的四分之一的模型已经足够。

在这一发现的基础上,研究人员进一步对名为“Chinchilla”的模型进行了训练,其训练数据量是 Gopher 的 4 倍,但参数数量仅是 Gopher 模型四分之一(700 亿个)。

图 | Chinchilla、Gopher等语言模型的参数数量,训练数据量 (来源:Deep Mind)

随后,研究人员将 Chinchilla 与其他大型语言模型在性能上进行对比,相关结果也验证了研究团队的结论。

图 | Chinchilla 与 Gopher、GPT-3 和 Megatron-Turing NLG 等大型语言模型在问答能力 、常识、阅读理解和大型多任务语言理解能力的常见基准测试的测试结果对比(来源:DeepMind)

在语言建模方面,在对 Chinchilla 和 Gopher 模型进行语言建模方面权威的 Pile 测评之后,结果表明,参数数量更少的 Chinchilla 在所有评估子集上的表现,都显著优于 Gopher。例如在 Wikitext103 方面,Chinchilla 的困惑度为 7.16,而 Gopher 的困惑度则为 7.75。

图 | Chinchilla 和 Gopher 模型在语言建模Pile测评的表现差异。在所有评估子集上,Chinchilla 的表现都优于 Gopher(来源:DeepMind)

而在大规模多任务语言理解(MMLU)方面,Chinchilla 模型在相关测试结果也明显优于 Gopher,该测评是包含一系列与学术科目类似的考试问题的 MMLU 基准测试。Chinchilla 的平均准确率达 67.6%,与 Gopher 的准确率相比,超出 7.6%。值得注意的是,Chinchilla 的准确率比专家预测的、在 2023 年 6 月才会实现的 63.4% 还高。

此外,Chinchilla 在 4 个不同的单独任务上达到了超过 90% 的准确率,它们分别是高中政府与政治、国际法、社会学和美国对外政策。而目前还没有其他模型在 MMLU 测试的子集上达到 90% 以上的准确率。

此外,Chinchilla 在阅读理解、常识、闭卷问答、性别平等与有毒性语言、性别偏见等方面的测评结果也优于 Gopher。

尽管随着计算能力的增强,语言模型的规模可以做得越来越大。但是,DeepMind 的分析表明,增加语言规模的大小,需要更加关注训练数据集相应的缩放。DeepMind 指出,在对训练数据集进行扩展时,还需要对更大的数据集高度责任,并重点关注数据集的质量,尤其是其中的伦理和隐私等问题。

-End-

参考:网页链接

玻璃钢生产厂家楼盘玻璃钢卡通形象雕塑彩色玻璃钢人物雕塑定做商场美陈英语怎么说新余玻璃钢牛雕塑池州景区玻璃钢雕塑定制永州玻璃钢雕塑定制赣州定制玻璃钢雕塑联系方式东莞玻璃钢彩绘骆驼雕塑日照仿铜玻璃钢雕塑生产厂家定制广场大型玻璃钢雕塑清远售卖玻璃钢雕塑玻璃钢花盆座椅东沙群岛玻璃钢座椅雕塑厂家商场美陈制作玻璃钢抽象雕塑出售玻璃钢卡通雕塑名玻璃钢西瓜雕塑现货供应山西公园玻璃钢雕塑供应商湖州玻璃钢雕塑公司广西玻璃钢广场雕塑厂家供应大理市玻璃钢雕塑设计厂家著名玻璃钢雕塑作品芜湖订制玻璃钢雕塑玻璃钢校园雕塑设计哪里有三亚玻璃钢花盆通州玻璃钢花盆花器山海经大型玻璃钢雕塑中牟玻璃钢雕塑雕刻厂家电话一平方玻璃钢雕塑重多少辽宁玻璃钢米奇卡通雕塑厂家香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化