CLUE社区最新神器!PromptCLUE:大规模多任务Prompt预训练中文开源模型

图片
  新智元报道  
编辑:LRS 好困
【新智元导读】CLUE社区又发布了一个新神器PromptCLUE,中文NLP也实现了Train Once,Run Everywhere!
PromptCLUE支持几十个不同中文类型的任务,具有较好的零样本学习能力和少样本学习能力。
针对理解类任务,如分类、情感分析、抽取等,可以自定义标签体系;针对生成任务,可以进行采样自由生成。
图片
千亿中文token上大规模预训练,亿级中文任务数据上完成训练,训练任务超过150+。
比base版平均任务提升7个点+;具有更好的理解、生成和抽取能力,并且支持文本改写、纠错、知识图谱问答。
图片
promptCLUE实现了中文上的三大统一:统一模型框架,统一任务形式,统一应用方式。
统一模型框架:采用Text-to-Text的生成式预训练模型进行统一建模。
统一任务形式:Prompt统一不同的NLP任务间的差异,转化为统一的text-to-text数据形式。
统一应用方式:对目标任务形成拿来即用的模型,下游应用时都可转化为统一的prompt自适应方式,进行zero-shot/few-shot测试。
图片
项目地址: https://github.com/clue-ai/PromptCLUE
DEMO地址: www.CLUEbenchmarks.com/clueai.html
图片
在线DEMO
效果对比:16类中文任务
相关技术与训练过程
三大统一:统一模型框架(text-to-text),统一任务形式(prompt),统一应用方式(zero-shot/few-shot)。(T0)
大规模预训练:在t5-large版基础上,使用数百G中文语料,训练了100万步,累计训练了1.5万亿个中文字词级别token
大规模任务数据:使用了16种任务类型,数百种任务,累积亿级别任务数据
混合预训练:一方面将下游任务作为预训练语料,另一方面将下游任务和预训练语料一起训练,减少任务灾难遗忘以及缩短预训练和下游任务的距离,更好的适应下游任务(ExT5)
混合采样:针对众多数据量差异极大的任务,采用在每个训练batch内对所有的任务进行按照比例采样,根据任务的数据量进行平滑采样,并且同时限制任务数据量采样池的上限。平滑采样可以减少任务训练有偏危害,在每一batch内训练可以减少异质任务之间训练负迁移的情况(T5)
分阶段训练:一方面指在预训练分阶段,涉及训练序列长度的分阶段(128和512),加快预训练速度(Bert);另一方面,在下游训练分阶段, 涉及学习率和序列长度的变化以及递减式对下游任务的数据量限制,更好的适应下游的不同任务
增加语言模型的训练:参考t5.1.1, 除了使用Span Corrpution构建的方式进行无监督训练,同时在使用prefix LM的方式训练,增强生成任务的能力(LM adapted)
增加对模型的encoder以及decoder的训练:根据下游任务数据分别构建Data_text,Data_target预训练数据语料,是加入到预训练中,分别增强模型的encoder理解能力和 decoder的生成能力(见UIE)
重新构建模型中文字典:使用sentencepiece上在千亿token上学习并构建模型字典,更加符合中文语言习惯
License(许可证)
1)PromptCLUE-base可直接下载和使用;
2)PromptCLUE-large版的非商用License
使用方法
安装需要的项目和包
加载模型
使用模型进行预测
支持的任务(部分)
意图分类, 新闻分类, 情感分析, 自然语言推理, 阅读理解, 阅读理解-自由式, 摘要, 翻译-中英, 翻译-英中, 通用信息抽取, 简历信息抽取, 医疗信息抽取电商客户需求分析, 医疗语义相似度, 问题生成, 指代消解, 关键词抽取, 情感倾向, 根据标题文章生成, 知识图谱问答, 相似句子生成/改写, 纠错, 中心词提取.....
使用自定义数据集进行训练-PyTorch实现
使用pCLUE数据集进行训练、预测和效果验证。
图片
pCLUE基准上的效果
示例输入
新闻分类(classify)
意图分类(classify)
情感分析(classify)
推理(generate)
阅读理解(generate)
阅读理解-自由式(generate)
摘要(generate)
翻译-中英(generate)
翻译-英中(generate)
通用信息抽取(generate)
简历信息抽取(generate)
医疗信息抽取(generate)
电商客户需求分析(classify)
医疗语义相似度(classify)
问题生成(generate)
指代消解(generate)
关键词抽取(generate)
情感倾向(classify)
技术交流和问题反馈
图片
参考资料:
https://mp.weixin.qq.com/s/Ms8LzcvVhz4GasbVC3mvXA

玻璃钢生产厂家玻璃钢雕塑工艺品产业河南玻璃钢雕塑艺术摆件唐山玻璃钢雕塑怀仁玻璃钢花盆花器山东玻璃钢雕塑摆件设计厂家云南仿铜玻璃钢雕塑市场泰州儿童玻璃钢雕塑设计常用商场美陈费用欧洲人物雕塑玻璃钢江苏季节性商场美陈哪家好湘西玻璃钢座椅雕塑设计玻璃钢雕塑 多少年玻璃钢农耕人物雕塑厂嘉峪关公园玻璃钢雕塑多少钱佛山玻璃钢艺术雕塑玻璃钢骆驼雕塑公司推荐济南步行街玻璃钢雕塑价位泉州玻璃钢商场美陈湖州玻璃钢雕塑订做价格玻璃钢雕塑制作协议软装玻璃钢卡通雕塑设计合肥户内玻璃钢雕塑供应商西藏玻璃钢佛像雕塑玻璃钢卡通人物雕塑摆件辽阳大型玻璃钢雕塑台州多彩玻璃钢雕塑北京大型主题商场美陈销售晋中玻璃钢雕塑公司福州创意玻璃钢雕塑儋州玻璃钢雕塑厂家香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化