文本主题分析方法、装置、电子设备及存储介质与流程

文档序号:31132923发布日期:2022-08-13 07:28阅读:155来源:国知局
导航: X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术
文本主题分析方法、装置、电子设备及存储介质与流程

1.本发明实施例涉及自然语言处理技术领域,特别涉及一种文本主题分析方法、装置、电子设备及存储介质。


背景技术:

2.随着移动互联网与信息技术的飞速发展,数据量也在飞速递增。海量数据亟需进行处理和分析,尤其是文本类型的数据,其中包含有巨大信息量,政府、企业与个人对于智能化文本主题分析的需求日益增长。因此自然语言处理技术得以进一步发展。
3.现有技术中,在自然语言处理研究领域中应用较广泛的语言模型包括:基于循环神经网络(recurrent neural network,rnn)的高级词向量(elmo)和基于transformer的gpt(generative pre-training)模型和语言表征模型(bidirectional encoder representation from transformers,bert)。虽然这些语言模型作为文本挖掘方法,能够有效提取文本特征,发现文本数据中潜在语义主题,但是,仅能够对输入的文本内容进行主题确认,无法按需进行分析,灵活性较差。


技术实现要素:

4.基于现有技术的问题,本发明实施例提供了一种文本主题分析方法、装置、电子设备及存储介质,能够按照不同需求对文本进行主题分析,提高主题分析的灵活性。
5.第一方面,本发明实施例提供了一种文本主题分析方法,包括:
6.确定所需实现的若干个分析主题以及每一个分析主题对应的分析结果标签范围;所述分析结果标签范围包括多个分析结果标签;
7.获取包含多个样本文本的训练样本集;每一个样本文本可对应至少一个分析主题;
8.确定每一个样本文本在对应分析主题上的分析结果标签;该分析结果标签位于对应分析主题的分析结果标签范围内;
9.将所述训练样本集中的每一个样本文本及对应分析主题分别作为输入,将与输入的样本文本在输入的分析主题上的分析结果标签作为输出,对预先构建好的xlm-roberta网络进行训练,得到训练完成的xlm-roberta模型;
10.将待评估文本和目标分析主题输入至所述xlm-roberta模型中,得到所述xlm-roberta模型输出的目标分析结果标签。
11.优选地,所述训练样本集中的样本文本从如下至少一个数据集中获得:bookcorpus数据集、维基百科英文数据集、cc-news数据集、openwebtext数据集和stories数据集。
12.优选地,所述样本文本中语料所使用语种的数量为至少一个。
13.优选地,所述对预先构建好的xlm-roberta网络进行训练,包括:
14.利用所述xlm-roberta网络对输入的样本文本进行文本清洗,将文本清洗后的样
本文本进行分词,并根据分词结果将分词后的样本文本编码成张量;并利用编码得到的张量、输入的分析主题和对应的分析结果标签对该样本文本进行特征学习,以对所述xlm-roberta网络中的参数进行调整。
15.优选地,在所述根据分词结果将分词后的样本文本编码成张量之前,还包括:
16.为每一个词语标注词性标签,并根据每一个词语标注的词性标签将对文本特征无贡献的词语删除,以利用剩余词语执行所述编码成张量。
17.优选地,所述利用编码得到的张量、输入的分析主题和对应的分析结果标签对该样本文本进行特征学习,包括:
18.根据输入的分析主题确定各词性词语的选择比例,并根据所述选择比例对编码成的各张量进行特征选择,以将选择的张量作为对该样本文本的学习特征;其中选择的张量所对应各词性的特征词语的比例与所述选择比例相同或相近。
19.优选地,在所述利用编码得到的张量、输入的分析主题和对应的分析结果标签对该样本文本进行特征学习之前,还包括:
20.对该样本文本进行动态掩码处理,利用每一次掩码处理后的样本文本编码成的张量执行对该样本文本进行特征学习;所述特征学习不包括对掩码的预测任务。
21.第二方面,本发明实施例还提供了一种文本主题分析装置,包括:
22.第一确定单元,用于确定所需实现的若干个分析主题以及每一个分析主题对应的分析结果标签范围;所述分析结果标签范围包括多个分析结果标签;
23.获取单元,用于获取包含多个样本文本的训练样本集;每一个样本文本可对应至少一个分析主题;
24.第二确定单元,用于确定每一个样本文本在对应分析主题上的分析结果标签;该分析结果标签位于对应分析主题的分析结果标签范围内;
25.训练单元,用于将所述训练样本集中的每一个样本文本及对应分析主题分别作为输入,将与输入的样本文本在输入的分析主题上的分析结果标签作为输出,对预先构建好的xlm-roberta网络进行训练,得到训练完成的xlm-roberta模型;
26.分析单元,用于将待评估文本和目标分析主题输入至所述xlm-roberta模型中,得到所述xlm-roberta模型输出的目标分析结果标签。
27.第三方面,本发明实施例还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时,实现本说明书任一实施例所述的方法。
28.第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行本说明书任一实施例所述的方法。
29.本发明实施例提供了一种文本主题分析方法、装置、电子设备及存储介质,采用xlm-roberta网络进行模型训练,能够识别任意数量的句子组成的文本流,并且在训练用于进行文本主题分析的xlm-roberta模型时,不仅将样本文本作为输入,还需要将对样本文本所需进行的分析主题作为输入,并将该样本文本对应分析主题的分析结果标签作为输出,使得构建的网络能够学习样本文本在该分析主题上的特征,使得分析结果与输出的分析结果标签相同,如此,在需要对待评估文本进行不同分析主题的分析时,只需将待评估文本和
roberta网络进行训练,得到训练完成的xlm-roberta模型;
45.步骤108,将待评估文本和目标分析主题输入至所述xlm-roberta模型中,得到所述xlm-roberta模型输出的目标分析结果标签。
46.本发明实施例中,采用xlm-roberta网络进行模型训练,能够识别任意数量的句子组成的文本流,并且在训练用于进行文本主题分析的xlm-roberta模型时,不仅将样本文本作为输入,还需要将对样本文本所需进行的分析主题作为输入,并将该样本文本对应分析主题的分析结果标签作为输出,使得构建的网络能够学习样本文本在该分析主题上的特征,使得分析结果与输出的分析结果标签相同,如此,在需要对待评估文本进行不同分析主题的分析时,只需将待评估文本和目标分析主题输入至xlm-roberta模型中,即可获得xlm-roberta模型输出的目标分析结果标签。可见,本方案能够按照不同需求对文本进行主题分析,从而可以提高主题分析的灵活性。
47.下面描述图1所示的各个步骤的执行方式。
48.首先,针对步骤100,确定所需实现的若干个分析主题以及每一个分析主题对应的分析结果标签范围;所述分析结果标签范围包括多个分析结果标签。
49.文本文件中包含由任意数量的句子组成的文本流,且这些文本流在进行语义翻译后是具有对应主题的。进一步地,本发明一个实施例中,对于同一个文本文件可以进行不同主题分析,且可以得到该文本文件在不同分析主题上的分析结果标签。比如,对于一个文本文件,在进行“关注主题”这一主题进行分析时,该文本文件的分析结果标签可以是“教育”;在进行“政治倾向”这一主题进行分析时,该文本文件的分析结果标签可以是“民主倾向”。可见,可以对同一个文本文件进行不同主题分析,且在进行不同主题分析时,能够得出对应分析主题的分析结果标签。
50.目前通过对模型进行训练,能够使得模型对文本文件进行主题分类,输出文本文件所属主题,也就是不能够按需对文本文件进行主题分析,本发明不同之处在于,能够按照不同需求对文本文件进行不同分析主题的分析,输出的分析结果标签也是对应于该分析主题的,以提高主题分析的灵活性。
51.为了能够训练得出按需对文本文件进行主题分析的模型,需要确定所需实现的若干个分析主题,以及每一个分析主题对应的分析结果标签范围,使得模型输出的分析结果标签是在对应范围内输出的。
52.举例来说,所需实现的分析主题为:关注主题和政治倾向;当分析主题为关注主题时,对应的分析结果标签范围包括:教育、医疗、政治、民生;当分析主题为政治倾向时,对应的分析结果标签范围包括:民主倾向、平民倾向、集权倾向、权贵倾向。
53.然后,针对步骤102“获取包含多个样本文本的训练样本集;每一个样本文本可对应至少一个分析主题”和步骤104“确定每一个样本文本在对应分析主题上的分析结果标签;该分析结果标签位于对应分析主题的分析结果标签范围内”同时进行说明。
54.本发明实施例中,当所需实现的分析主题数量较多时,存在某些样本文本只具有部分分析主题的分析价值,而对于另一部分分析主题不具有分析价值,那么无需将不具有分析价值的那一部分分析主题作为这些样本文本的分析主题,以干扰模型的特征学习。因此,为了提高模型的特征学习效果,保证模型中的参数调整达到最优,训练样本集中的每一个样本文本可对应所述若干个分析主题中的至少一个分析主题,且样本文本对应的至少一
个分析主题均是该样本文本具有分析价值的分析主题。
55.在确定样本文本对应的分析主题时,可以由人工确定后进行输入,以保证样本文本对应分析主题的确定准确性。
56.本发明一个实施例中,为了提高模型训练效果,可以采用更多高质量的训练数据形成训练样本集,具体地,该训练样本集中的样本文本从如下至少一个数据集中获得:bookcorpus数据集、维基百科英文数据集、cc-news数据集、openwebtext数据集和stories数据集。
57.其中,bookcorpus数据集和维基百科英文数据集是bert训练时使用的原始数据;cc-news数据集中包含有英语新闻文章;openwebtext数据集是webtext语料库的开源克隆版本,其中包含爬取自reddit网站共享链接的网页内容;stories数据集包含commoncrawl数据的子集,该数据集经过过滤以匹配winograd schemas的故事性风格。
58.从上述数据集中获取训练样本集的方式可以通过公开数据下载或者爬虫方式获取语料,以形成样本文本,进而得到训练样本集。
59.当训练样本集从上述五个数据集中获取样本文本时,本实施例中的训练样本集的数据量是bert数据量的十多倍,从而可以提升模型训练质量。
60.在本发明一个实施例中,为了实现跨语种分析,可以增加训练样本集中的语种数量,以自监督方式训练跨语言表征,以解决多语种诅咒问题。具体地,样本文本中语料所使用语种的数量为至少一个。
61.目前的xlm-roberta模型在训练时,每个语种作为一个批次,分批次进行训练,即将同一批次对应同一个语种的样本文本输入至xlm-roberta网络中进行训练,训练完成后,利用另一批次同一个语种(与上一批次的语种不同)的样本文本继续进行训练,以得到多语种文本分析的xlm-roberta模型。而本发明实施例中,在对xlm-roberta模型进行训练时,同一个样本文本中的语料可以使用一个语种,也可以使用多个语种,在多个语种参杂在同一个样本文本中时,可以基于对应语种将样本文本对应语种的文本流进行翻译,将翻译结果进行语义分析,进而进行对应主题的分析。
62.本发明实施例中,当获取了训练样本集之后,还需要确定每一个样本文本在对应分析主题上的分析结果标签,且为了保证xlm-roberta模型能够在指定范围内输出分析结果标签,该确定的样本文本在对应分析主题上的分析结果标签需位于对应分析主题的分析结果标签范围内。
63.当训练样本集中的样本文本对应一个分析主题时,可以为该样本文本确定在该分析主题上的分析结果标签;
64.当训练样本集中的样本文本对应多个分析主题时,需要为该样本文本确定每一个分析主题上的分析结果标签。
65.举例来说,样本文本1对应分析主题1和分析主题2,则为样本文本1确定对应分析主题1的分析结果标签11,为样本文本1确定对应分析主题2上的分析结果标签21。由于样本文本1对应两个分析主题,每一个分析主题均可以用于xlm-roberta模型进行训练,因此,此时可以看作对训练样本集的扩增。
66.由于当一个样本文本对应多个分析主题时,通过为该样本文本确定每一个分析主题上的分析结果标签,相当于将该样本文本扩增为与该多个分析主题一一对应的多个样本
文本,该扩增方式得到的训练样本集(称之为a),相对于训练样本集(称之为b)中一个样本文本对应一个分析主题的方式,即使本实施例中最终扩增后a与b中样本文本的数量相同,但使用a的样本文本训练得到的xlm-roberta模型,相对于使用b的样本文本训练得到的xlm-roberta模型,在对同一个文本进行不同分析主题的分析时,准确率会更高。这是因为a中存在对应不同分析主题的相同样本文本,训练过程中xlm-roberta模型会对该特征进行学习,从而能够提高对同一个文本进行不同分析主题的分析准确率。
67.接下来,对步骤106进行说明,将所述训练样本集中的每一个样本文本及对应分析主题分别作为输入,将与输入的样本文本在输入的分析主题上的分析结果标签作为输出,对预先构建好的xlm-roberta网络进行训练,得到训练完成的xlm-roberta模型。
68.本发明一个实施例中,在对xlm-roberta网络进行训练时,可以直接将样本文本及对应分析主题进行输入,由xlm-roberta网络对输入的样本文本进行处理之后,进行特征学习,以提高训练结果的准确性,提高特征学习效果。
69.具体地,本发明一个实施例中,请参考图2,该对预先构建好的xlm-roberta网络进行训练,可以包括:
70.s1、利用所述xlm-roberta网络对输入的样本文本进行文本清洗;
71.s2、将文本清洗后的样本文本进行分词;
72.s3、并根据分词结果将分词后的样本文本编码成张量;
73.s4、并利用编码得到的张量、输入的分析主题和对应的分析结果标签对该样本文本进行特征学习,以对所述xlm-roberta网络中的参数进行调整。
74.在步骤s1中,样本文本中存在噪音数据,通过对样本文本进行文本清洗,可以保留有用的数据,删除噪音数据。本步骤中的文本清洗方法可以包括:去重、对其、删除、标注中的至少一种。
75.在步骤s2和步骤s3中,将样本文本进行分词,可以采用基于规则的分词方法或基于统计的分词方法进行分词。而编码成张量的方式可以采用one-hot和embedding编码方式。
76.在本发明一个实施例中,步骤s3之前,还可以包括:为每一个词语标注词性标签,并根据每一个词语标注的词性标签将对文本特征无贡献的词语删除,以利用剩余词语执行所述编码成张量。
77.其中,词性可以包括名词、动词、形容词等,在为每一个词语标注词性标签时,可以采用最大熵词性标注方法、隐马尔科夫模型(hmm)词性标注方法等。且将对文本特征无贡献的词语删除,是为了提高后续过程中特征学习过程中所基于的词语对文本特征的贡献较大,从而提高特征学习效果,提高参数调整的准确性。
78.一个实施方式中,可以基于词语的词性标签确定词语对文本特征的贡献度,比如,标点符号、语气助词、“的”等,这些词语对于文本特征的贡献较小,因此,可以将这些词语删除。
79.在本发明一个实施例中,为了提高模型训练的准确性,使得模型能够学习不同的语言表征,步骤s4之前,还可以包括:对该样本文本进行动态掩码处理,利用每一次掩码处理后的样本文本编码成的张量执行对该样本文本进行特征学习;所述特征学习不包括对掩码的预测任务。
80.具体地,动态掩码处理方式可以是对样本文本中的文本流中随机抽取设定比例的字节,然后将该设定比例的字节进行掩码处理,每一次掩码处理都是一个随机抽取的过程,因此每一次掩码处理后可以形成一个新的样本文本,从而可以进一步实现训练样本集的扩增,且利用掩码处理后的样本文本对xlm-roberta网络进行训练,可以使得xlm-roberta网络能够对特征进行不断学习,逐渐适应不同的掩码策略,从而可以学习不同的语言表征。
81.优选地,该设定比例不大于15%。
82.另外,由于训练得到的xlm-roberta模型是用于对文本进行对应分析主题的分析的,因此,在采用掩码处理后进行训练时,无需对掩码处理的样本文本中的掩码进行预测,而是在样本文本进行掩码处理后的情况下,依然能够学习到样本文本在对应分析主题上的特征,进而输出对应分析主题的分析结果标签。
83.结合步骤102中,一个样本文本中的语料可以使用多个语种,而本实施例依然可以对xlm-roberta进行训练,也是因为掩码处理后无需对掩码进行预测,只需利用掩码后剩余文本流能够分析出对应分析主题的分析结果标签即可,因此,在样本文本中的语料使用多个语种时,利用对样本文本的动态掩码处理得到的样本文本,能够训练出准确的、且能够按需进行不同分析主题的xlm-roberta模型。
84.需要说明的是,该掩码处理过程可以在s3之前,也可以在s3之后,只需保证执行s4时,是基于掩码处理后的样本文本对应的张量进行特征学习即可。
85.在步骤s4中,一个实施方式中,该利用编码得到的张量、输入的分析主题和对应的分析结果标签对该样本文本进行特征学习,可以包括:根据输入的分析主题确定各词性词语的选择比例,并根据所述选择比例对编码成的各张量进行特征选择,以将选择的张量作为对该样本文本的学习特征;其中选择的张量所对应各词性的特征词语的比例与所述选择比例相同或相近。
86.由于在对张量进行特征选择后是将选择的张量作为对样本文本的学习特征的,因此选择的张量需要与分析主题相适配,适配度越高,在进行对应主题分析时,准确率就越高。
87.具体地,可以预先建立分析主题与各词性词语选择比例的对应关系,该对应关系的建立过程可以包括:
88.获取若干个样本文本;
89.针对获取的每一个样本文本,均执行:获取对该样本文本在对应分析主题上进行中心思想提炼,得到提炼的多个词语,对该多个词语进行词性分类;
90.对若干个样本文本中对应相同分析主题的各词性词语数量进行统计,得到每一个分析主题对应的各词性词语的比例关系,将该比例关系确定与该分析主题对应的选择比例。
91.举例来说,针对分析主题1,统计得到若干个样本文本中对应该分析主题1的歌词下词语数量分别为:名词1000个、动词800个、形容词300个,则该分析主题1的各词性词语选择比例为:名词:动词:形容词=10:8:3。也就是说,在进行特征选择时,可以按照该相同选择比例或相近选择比例进行对应词性词语的选择,从而使得特征选择之后得到的目标特征子集更适配该分析主题,提高分析结果的准确性。
92.其中,该相近选择比例可以是与该选择比例位于设定偏差范围内的比例。
93.步骤206,将所述目标特征子集和该样本文本对应分析主题分别作为输入,以对预先构建好的xlm-roberta网络进行训练。
94.本发明实施例中,构建的xlm-roberta网络中全连接层可以包括三个,以提高分析结果的准确性。
95.在训练过程中,可以更大的模型参数,比如,1024块v100gpu训练1天时间,通过增加训练步数,即扩大mini_batch参数,从而可以提升模型优化速率和模型性能。
96.最后,对步骤108进行说明,将待评估文本和目标分析主题输入至所述xlm-roberta模型中,得到所述xlm-roberta模型输出的目标分析结果标签。
97.在xlm-roberta模型训练好之后,可以按照需求对待评估文本进行不同分析主题的分析。比如,将某个人物的社交发文确定为待评估文本,通过对该待评估文本进行不同分析主题的分析,可以得出该人物的关注主题、政治倾向等结果。
98.在训练过程中,可以将样本文本也一并作为输出,分析结果标签可以返回在样本文本的末尾处。输出的样本文本可以是输入的样本文本,也可以是文本清洗后的样本文本,以易于进行下一步的统计分析。比如,利用输出的样本文本中的词语的词性比例对各词性词语的选择比例进行更新。
99.如图3、图4所示,本发明实施例提供了一种文本主题分析装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言,如图3所示,为本发明实施例提供的一种文本主题分析装置所在电子设备的一种硬件架构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的电子设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等。以软件实现为例,如图4所示,作为一个逻辑意义上的装置,是通过其所在电子设备的cpu将非易失性存储器中对应的计算机程序读取到内存中运行形成的。本实施例提供的一种文本主题分析装置,包括:
100.第一确定单元401,用于确定所需实现的若干个分析主题以及每一个分析主题对应的分析结果标签范围;所述分析结果标签范围包括多个分析结果标签;
101.获取单元402,用于获取包含多个样本文本的训练样本集;每一个样本文本可对应至少一个分析主题;
102.第二确定单元403,用于确定每一个样本文本在对应分析主题上的分析结果标签;该分析结果标签位于对应分析主题的分析结果标签范围内;
103.训练单元404,用于将所述训练样本集中的每一个样本文本及对应分析主题分别作为输入,将与输入的样本文本在输入的分析主题上的分析结果标签作为输出,对预先构建好的xlm-roberta网络进行训练,得到训练完成的xlm-roberta模型;
104.分析单元405,用于将待评估文本和目标分析主题输入至所述xlm-roberta模型中,得到所述xlm-roberta模型输出的目标分析结果标签。
105.在本发明一个实施例中,所述训练样本集中的样本文本从如下至少一个数据集中获得:bookcorpus数据集、维基百科英文数据集、cc-news数据集、openwebtext数据集和stories数据集。
106.在本发明一个实施例中,所述样本文本中语料所使用语种的数量为至少一个。
107.在本发明一个实施例中,所述训练单元404,具体用于:利用所述xlm-roberta网络对输入的样本文本进行文本清洗,将文本清洗后的样本文本进行分词,并根据分词结果将
分词后的样本文本编码成张量;并利用编码得到的张量、输入的分析主题和对应的分析结果标签对该样本文本进行特征学习,以对所述xlm-roberta网络中的参数进行调整。
108.在本发明一个实施例中,所述训练单元404,在所述根据分词结果将分词后的样本文本编码成张量之前,还用于为每一个词语标注词性标签,并根据每一个词语标注的词性标签将对文本特征无贡献的词语删除,以利用剩余词语执行所述编码成张量。
109.在本发明一个实施例中,所述训练单元404,在执行所述利用编码得到的张量、输入的分析主题和对应的分析结果标签对该样本文本进行特征学习时,具体包括:根据输入的分析主题确定各词性词语的选择比例,并根据所述选择比例对编码成的各张量进行特征选择,以将选择的张量作为对该样本文本的学习特征;其中选择的张量所对应各词性的特征词语的比例与所述选择比例相同或相近。
110.在本发明一个实施例中,所述训练单元404,在所述利用编码得到的张量、输入的分析主题和对应的分析结果标签对该样本文本进行特征学习之前,还用于对该样本文本进行动态掩码处理,利用每一次掩码处理后的样本文本编码成的张量执行对该样本文本进行特征学习;所述特征学习不包括对掩码的预测任务。
111.可以理解的是,本发明实施例示意的结构并不构成对一种文本主题分析装置的具体限定。在本发明的另一些实施例中,一种文本主题分析装置可以包括比图示更多或者更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。
112.上述装置内的各模块之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
113.本发明实施例还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时,实现本发明任一实施例中的一种文本主题分析方法。
114.本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序在被处理器执行时,使所述处理器执行本发明任一实施例中的一种文本主题分析方法。
115.具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或cpu或mpu)读出并执行存储在存储介质中的程序代码。
116.在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
117.用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如cd-rom、cd-r、cd-rw、dvd-rom、dvd-ram、dvd-rw、dvd+rw)、磁带、非易失性存储卡和rom。可选择地,可以由通信网络从服务器计算机上下载程序代码。
118.此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
119.此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展模块中设置的存储器中,随后基于程
序代码的指令使安装在扩展板或者扩展模块上的cpu等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
120.本发明各实施例至少具有如下有益效果:
121.1、在本发明一个实施例中,采用xlm-roberta网络进行模型训练,能够识别任意数量的句子组成的文本流,并且在训练用于进行文本主题分析的xlm-roberta模型时,不仅将样本文本作为输入,还需要将对样本文本所需进行的分析主题作为输入,并将该样本文本对应分析主题的分析结果标签作为输出,使得构建的网络能够学习样本文本在该分析主题上的特征,使得分析结果与输出的分析结果标签相同,如此,在需要对待评估文本进行不同分析主题的分析时,只需将待评估文本和目标分析主题输入至xlm-roberta模型中,即可获得xlm-roberta模型输出的目标分析结果标签。可见,本方案能够按照不同需求对文本进行主题分析,从而可以提高主题分析的灵活性。
122.2、在本发明一个实施例中,当所需实现的分析主题数量较多时,存在某些样本文本只具有部分分析主题的分析价值,而对于另一部分分析主题不具有分析价值,那么无需将不具有分析价值的那一部分分析主题作为这些样本文本的分析主题,以干扰模型的特征学习。因此,为了提高模型的特征学习效果,保证模型中的参数调整达到最优,训练样本集中的每一个样本文本可对应所述若干个分析主题中的至少一个分析主题,且样本文本对应的至少一个分析主题均是该样本文本具有分析价值的分析主题。
123.3、在本发明一个实施例中,当一个样本文本对应多个分析主题时,通过为该样本文本确定每一个分析主题上的分析结果标签,相当于将该样本文本扩增为与该多个分析主题一一对应的多个样本文本,该扩增方式得到的训练样本集(称之为a),相对于训练样本集(称之为b)中一个样本文本对应一个分析主题的方式,即使本实施例中最终扩增后a与b中样本文本的数量相同,但使用a的样本文本训练得到的xlm-roberta模型,相对于使用b的样本文本训练得到的xlm-roberta模型,在对同一个文本进行不同分析主题的分析时,准确率会更高。这是因为a中存在对应不同分析主题的相同样本文本,训练过程中xlm-roberta模型会对该特征进行学习,从而能够提高对同一个文本进行不同分析主题的分析准确率。
124.4、在本发明一个实施例中,一个样本文本中的语料可以使用多个语种,而本实施例依然可以对xlm-roberta进行训练,也是因为掩码处理后无需对掩码进行预测,只需利用掩码后剩余文本流能够分析出对应分析主题的分析结果标签即可,因此,在样本文本中的语料使用多个语种时,利用对样本文本的动态掩码处理得到的样本文本,能够训练出准确的、且能够按需进行不同分析主题的xlm-roberta模型。
125.需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
…”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
126.本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序
在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质中。
127.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
完整全部详细技术资料下载
当前第1页 1  2 
相关技术
  • 一种缺陷的检测方法、装置以及...
  • 一种基于多源时空数据的知识图...
  • 机票预售数据的监测系统、资源...
  • 手语转译的方法、装置、计算机...
  • 模型训练方法、数据处理方法、...
  • 一种人机交互方法、装置、电子...
  • 一种计算闸门过闸流量的智能高...
  • 一种触控笔及控制方法与流程
  • 一种基于卷积神经网络的360...
  • 一种基于模型驱动可视化开发工...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1

玻璃钢生产厂家乐山玻璃钢仿铜雕塑价格海宁玻璃钢雕塑厂家泉港玻璃钢花盆花器潮州公仔玻璃钢动物雕塑酒店商场花卉美陈天心玻璃钢造型雕塑临汾玻璃钢卡通雕塑厂家遵义商场美陈定制常州玻璃钢鹿雕塑厂家安徽玻璃钢雕塑定做多重优惠二手卡通玻璃钢雕塑常德玻璃钢花盆花器户外玻璃钢雕塑施工哪家好中原玻璃钢雕塑设计甘肃玻璃钢雕塑绵羊图片大连卡通玻璃钢雕塑公司白山玻璃钢雕塑人物西安火烈鸟玻璃钢雕塑公司西宁卡通玻璃钢雕塑价格特色玻璃钢花盆有哪些广州透明玻璃钢雕塑摆件河北步行街玻璃钢雕塑哪家便宜玻璃钢雕塑的价格.江西佛像玻璃钢雕塑哪家便宜洪江玻璃钢景观雕塑福建走廊商场美陈批发玻璃钢雕塑市场价玻璃钢浮雕雕塑制作流温州多彩玻璃钢雕塑销售电话玻璃钢雕塑雕塑定制香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化