LLM-大模型训练-步骤(二)-预训练/Pre-Training(1)：全参数预训练(Full-Param Pre-Training)【对LLaMA等模型进一步全量参数预训练】【中文无监督学习语料】

u013250861

已于 2023-06-24 23:57:58 修改

阅读量2k

点赞数 1

分类专栏： LLM 文章标签：人工智能

于 2023-06-24 23:26:53 首次发布

本文链接： https://blog.csdn.net/u013250861/article/details/131368055

版权

LLM 专栏收录该内容

111 篇文章 239 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了如何使用中文无监督学习语料对LLaMA等模型进行全参数预训练，旨在提升模型的中文理解和知识储备，同时保持其英文和代码处理能力。

摘要由CSDN通过智能技术生成

GitHub项目：KnowLM

一、全参数预训练（Full-Param Pre-training）

使用中文语料对LLaMA等模型进行进一步全量预训练，在尽可能保留原来的英文和代码能力的前提下，进一步提高模型对于中文理解能力和丰富模型的知识储备
该阶段的目的是增强模型的中文能力和知识储备。

二、无监督学习语料

pt_sample_data.txt

我们如何在日常生活中减少用水？1. 使用节水装置，如节水淋浴喷头和水龙头。 
2. 使用水箱或水桶收集家庭废水，例如洗碗和洗浴。 
3. 在社区中提高节水意识。 
4. 检查水管和灌溉系统的漏水情况，并及时修复它们。 
5. 洗澡时间缩短，使用低流量淋浴头节约用水。 
6. 收集雨水，用于园艺或其他非饮用目的。 
7. 刷牙或擦手时关掉水龙头。 
8. 减少浇水草坪的时间。 
9. 尽可能多地重复使用灰水（来自洗衣机、浴室水槽和淋浴的水）。

了解本专栏