文本主题分析方法、装置、电子设备及存储介质与流程

文档序号：31132923发布日期：2022-08-13 07:28阅读：155来源：国知局

导航： X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术

1.本发明实施例涉及自然语言处理技术领域，特别涉及一种文本主题分析方法、装置、电子设备及存储介质。

背景技术：

2.随着移动互联网与信息技术的飞速发展，数据量也在飞速递增。海量数据亟需进行处理和分析，尤其是文本类型的数据，其中包含有巨大信息量，政府、企业与个人对于智能化文本主题分析的需求日益增长。因此自然语言处理技术得以进一步发展。
3.现有技术中，在自然语言处理研究领域中应用较广泛的语言模型包括：基于循环神经网络(recurrent neural network,rnn)的高级词向量(elmo)和基于transformer的gpt(generative pre-training)模型和语言表征模型(bidirectional encoder representation from transformers,bert)。虽然这些语言模型作为文本挖掘方法，能够有效提取文本特征，发现文本数据中潜在语义主题，但是，仅能够对输入的文本内容进行主题确认，无法按需进行分析，灵活性较差。

技术实现要素：

4.基于现有技术的问题，本发明实施例提供了一种文本主题分析方法、装置、电子设备及存储介质，能够按照不同需求对文本进行主题分析，提高主题分析的灵活性。
5.第一方面，本发明实施例提供了一种文本主题分析方法，包括：
6.确定所需实现的若干个分析主题以及每一个分析主题对应的分析结果标签范围；所述分析结果标签范围包括多个分析结果标签；
7.获取包含多个样本文本的训练样本集；每一个样本文本可对应至少一个分析主题；
8.确定每一个样本文本在对应分析主题上的分析结果标签；该分析结果标签位于对应分析主题的分析结果标签范围内；
9.将所述训练样本集中的每一个样本文本及对应分析主题分别作为输入，将与输入的样本文本在输入的分析主题上的分析结果标签作为输出，对预先构建好的xlm-roberta网络进行训练，得到训练完成的xlm-roberta模型；
10.将待评估文本和目标分析主题输入至所述xlm-roberta模型中，得到所述xlm-roberta模型输出的目标分析结果标签。
11.优选地，所述训练样本集中的样本文本从如下至少一个数据集中获得：bookcorpus数据集、维基百科英文数据集、cc-news数据集、openwebtext数据集和stories数据集。
12.优选地，所述样本文本中语料所使用语种的数量为至少一个。
13.优选地，所述对预先构建好的xlm-roberta网络进行训练，包括：
14.利用所述xlm-roberta网络对输入的样本文本进行文本清洗，将文本清洗后的样
本文本进行分词，并根据分词结果将分词后的样本文本编码成张量；并利用编码得到的张量、输入的分析主题和对应的分析结果标签对该样本文本进行特征学习，以对所述xlm-roberta网络中的参数进行调整。
15.优选地，在所述根据分词结果将分词后的样本文本编码成张量之前，还包括：
16.为每一个词语标注词性标签，并根据每一个词语标注的词性标签将对文本特征无贡献的词语删除，以利用剩余词语执行所述编码成张量。
17.优选地，所述利用编码得到的张量、输入的分析主题和对应的分析结果标签对该样本文本进行特征学习，包括：
18.根据输入的分析主题确定各词性词语的选择比例，并根据所述选择比例对编码成的各张量进行特征选择，以将选择的张量作为对该样本文本的学习特征；其中选择的张量所对应各词性的特征词语的比例与所述选择比例相同或相近。
19.优选地，在所述利用编码得到的张量、输入的分析主题和对应的分析结果标签对该样本文本进行特征学习之前，还包括：
20.对该样本文本进行动态掩码处理，利用每一次掩码处理后的样本文本编码成的张量执行对该样本文本进行特征学习；所述特征学习不包括对掩码的预测任务。
21.第二方面，本发明实施例还提供了一种文本主题分析装置，包括：
22.第一确定单元，用于确定所需实现的若干个分析主题以及每一个分析主题对应的分析结果标签范围；所述分析结果标签范围包括多个分析结果标签；
23.获取单元，用于获取包含多个样本文本的训练样本集；每一个样本文本可对应至少一个分析主题；
24.第二确定单元，用于确定每一个样本文本在对应分析主题上的分析结果标签；该分析结果标签位于对应分析主题的分析结果标签范围内；
25.训练单元，用于将所述训练样本集中的每一个样本文本及对应分析主题分别作为输入，将与输入的样本文本在输入的分析主题上的分析结果标签作为输出，对预先构建好的xlm-roberta网络进行训练，得到训练完成的xlm-roberta模型；
26.分析单元，用于将待评估文本和目标分析主题输入至所述xlm-roberta模型中，得到所述xlm-roberta模型输出的目标分析结果标签。
27.第三方面，本发明实施例还提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时，实现本说明书任一实施例所述的方法。
28.第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行本说明书任一实施例所述的方法。
29.本发明实施例提供了一种文本主题分析方法、装置、电子设备及存储介质，采用xlm-roberta网络进行模型训练，能够识别任意数量的句子组成的文本流，并且在训练用于进行文本主题分析的xlm-roberta模型时，不仅将样本文本作为输入，还需要将对样本文本所需进行的分析主题作为输入，并将该样本文本对应分析主题的分析结果标签作为输出，使得构建的网络能够学习样本文本在该分析主题上的特征，使得分析结果与输出的分析结果标签相同，如此，在需要对待评估文本进行不同分析主题的分析时，只需将待评估文本和
roberta网络进行训练，得到训练完成的xlm-roberta模型；
45.步骤108，将待评估文本和目标分析主题输入至所述xlm-roberta模型中，得到所述xlm-roberta模型输出的目标分析结果标签。
46.本发明实施例中，采用xlm-roberta网络进行模型训练，能够识别任意数量的句子组成的文本流，并且在训练用于进行文本主题分析的xlm-roberta模型时，不仅将样本文本作为输入，还需要将对样本文本所需进行的分析主题作为输入，并将该样本文本对应分析主题的分析结果标签作为输出，使得构建的网络能够学习样本文本在该分析主题上的特征，使得分析结果与输出的分析结果标签相同，如此，在需要对待评估文本进行不同分析主题的分析时，只需将待评估文本和目标分析主题输入至xlm-roberta模型中，即可获得xlm-roberta模型输出的目标分析结果标签。可见，本方案能够按照不同需求对文本进行主题分析，从而可以提高主题分析的灵活性。
47.下面描述图1所示的各个步骤的执行方式。
48.首先，针对步骤100，确定所需实现的若干个分析主题以及每一个分析主题对应的分析结果标签范围；所述分析结果标签范围包括多个分析结果标签。
49.文本文件中包含由任意数量的句子组成的文本流，且这些文本流在进行语义翻译后是具有对应主题的。进一步地，本发明一个实施例中，对于同一个文本文件可以进行不同主题分析，且可以得到该文本文件在不同分析主题上的分析结果标签。比如，对于一个文本文件，在进行“关注主题”这一主题进行分析时，该文本文件的分析结果标签可以是“教育”；在进行“政治倾向”这一主题进行分析时，该文本文件的分析结果标签可以是“民主倾向”。可见，可以对同一个文本文件进行不同主题分析，且在进行不同主题分析时，能够得出对应分析主题的分析结果标签。
50.目前通过对模型进行训练，能够使得模型对文本文件进行主题分类，输出文本文件所属主题，也就是不能够按需对文本文件进行主题分析，本发明不同之处在于，能够按照不同需求对文本文件进行不同分析主题的分析，输出的分析结果标签也是对应于该分析主题的，以提高主题分析的灵活性。
51.为了能够训练得出按需对文本文件进行主题分析的模型，需要确定所需实现的若干个分析主题，以及每一个分析主题对应的分析结果标签范围，使得模型输出的分析结果标签是在对应范围内输出的。
52.举例来说，所需实现的分析主题为：关注主题和政治倾向；当分析主题为关注主题时，对应的分析结果标签范围包括：教育、医疗、政治、民生；当分析主题为政治倾向时，对应的分析结果标签范围包括：民主倾向、平民倾向、集权倾向、权贵倾向。
53.然后，针对步骤102“获取包含多个样本文本的训练样本集；每一个样本文本可对应至少一个分析主题”和步骤104“确定每一个样本文本在对应分析主题上的分析结果标签；该分析结果标签位于对应分析主题的分析结果标签范围内”同时进行说明。
54.本发明实施例中，当所需实现的分析主题数量较多时，存在某些样本文本只具有部分分析主题的分析价值，而对于另一部分分析主题不具有分析价值，那么无需将不具有分析价值的那一部分分析主题作为这些样本文本的分析主题，以干扰模型的特征学习。因此，为了提高模型的特征学习效果，保证模型中的参数调整达到最优，训练样本集中的每一个样本文本可对应所述若干个分析主题中的至少一个分析主题，且样本文本对应的至少一
个分析主题均是该样本文本具有分析价值的分析主题。
55.在确定样本文本对应的分析主题时，可以由人工确定后进行输入，以保证样本文本对应分析主题的确定准确性。
56.本发明一个实施例中，为了提高模型训练效果，可以采用更多高质量的训练数据形成训练样本集，具体地，该训练样本集中的样本文本从如下至少一个数据集中获得：bookcorpus数据集、维基百科英文数据集、cc-news数据集、openwebtext数据集和stories数据集。
57.其中，bookcorpus数据集和维基百科英文数据集是bert训练时使用的原始数据；cc-news数据集中包含有英语新闻文章；openwebtext数据集是webtext语料库的开源克隆版本，其中包含爬取自reddit网站共享链接的网页内容；stories数据集包含commoncrawl数据的子集，该数据集经过过滤以匹配winograd schemas的故事性风格。
58.从上述数据集中获取训练样本集的方式可以通过公开数据下载或者爬虫方式获取语料，以形成样本文本，进而得到训练样本集。
59.当训练样本集从上述五个数据集中获取样本文本时，本实施例中的训练样本集的数据量是bert数据量的十多倍，从而可以提升模型训练质量。
60.在本发明一个实施例中，为了实现跨语种分析，可以增加训练样本集中的语种数量，以自监督方式训练跨语言表征，以解决多语种诅咒问题。具体地，样本文本中语料所使用语种的数量为至少一个。
61.目前的xlm-roberta模型在训练时，每个语种作为一个批次，分批次进行训练，即将同一批次对应同一个语种的样本文本输入至xlm-roberta网络中进行训练，训练完成后，利用另一批次同一个语种(与上一批次的语种不同)的样本文本继续进行训练，以得到多语种文本分析的xlm-roberta模型。而本发明实施例中，在对xlm-roberta模型进行训练时，同一个样本文本中的语料可以使用一个语种，也可以使用多个语种，在多个语种参杂在同一个样本文本中时，可以基于对应语种将样本文本对应语种的文本流进行翻译，将翻译结果进行语义分析，进而进行对应主题的分析。
62.本发明实施例中，当获取了训练样本集之后，还需要确定每一个样本文本在对应分析主题上的分析结果标签，且为了保证xlm-roberta模型能够在指定范围内输出分析结果标签，该确定的样本文本在对应分析主题上的分析结果标签需位于对应分析主题的分析结果标签范围内。
63.当训练样本集中的样本文本对应一个分析主题时，可以为该样本文本确定在该分析主题上的分析结果标签；
64.当训练样本集中的样本文本对应多个分析主题时，需要为该样本文本确定每一个分析主题上的分析结果标签。
65.举例来说，样本文本1对应分析主题1和分析主题2，则为样本文本1确定对应分析主题1的分析结果标签11，为样本文本1确定对应分析主题2上的分析结果标签21。由于样本文本1对应两个分析主题，每一个分析主题均可以用于xlm-roberta模型进行训练，因此，此时可以看作对训练样本集的扩增。
66.由于当一个样本文本对应多个分析主题时，通过为该样本文本确定每一个分析主题上的分析结果标签，相当于将该样本文本扩增为与该多个分析主题一一对应的多个样本
文本，该扩增方式得到的训练样本集(称之为a)，相对于训练样本集(称之为b)中一个样本文本对应一个分析主题的方式，即使本实施例中最终扩增后a与b中样本文本的数量相同，但使用a的样本文本训练得到的xlm-roberta模型，相对于使用b的样本文本训练得到的xlm-roberta模型，在对同一个文本进行不同分析主题的分析时，准确率会更高。这是因为a中存在对应不同分析主题的相同样本文本，训练过程中xlm-roberta模型会对该特征进行学习，从而能够提高对同一个文本进行不同分析主题的分析准确率。
67.接下来，对步骤106进行说明，将所述训练样本集中的每一个样本文本及对应分析主题分别作为输入，将与输入的样本文本在输入的分析主题上的分析结果标签作为输出，对预先构建好的xlm-roberta网络进行训练，得到训练完成的xlm-roberta模型。
68.本发明一个实施例中，在对xlm-roberta网络进行训练时，可以直接将样本文本及对应分析主题进行输入，由xlm-roberta网络对输入的样本文本进行处理之后，进行特征学习，以提高训练结果的准确性，提高特征学习效果。
69.具体地，本发明一个实施例中，请参考图2，该对预先构建好的xlm-roberta网络进行训练，可以包括：
70.s1、利用所述xlm-roberta网络对输入的样本文本进行文本清洗；
71.s2、将文本清洗后的样本文本进行分词；
72.s3、并根据分词结果将分词后的样本文本编码成张量；
73.s4、并利用编码得到的张量、输入的分析主题和对应的分析结果标签对该样本文本进行特征学习，以对所述xlm-roberta网络中的参数进行调整。
74.在步骤s1中，样本文本中存在噪音数据，通过对样本文本进行文本清洗，可以保留有用的数据，删除噪音数据。本步骤中的文本清洗方法可以包括：去重、对其、删除、标注中的至少一种。
75.在步骤s2和步骤s3中，将样本文本进行分词，可以采用基于规则的分词方法或基于统计的分词方法进行分词。而编码成张量的方式可以采用one-hot和embedding编码方式。
76.在本发明一个实施例中，步骤s3之前，还可以包括：为每一个词语标注词性标签，并根据每一个词语标注的词性标签将对文本特征无贡献的词语删除，以利用剩余词语执行所述编码成张量。
77.其中，词性可以包括名词、动词、形容词等，在为每一个词语标注词性标签时，可以采用最大熵词性标注方法、隐马尔科夫模型(hmm)词性标注方法等。且将对文本特征无贡献的词语删除，是为了提高后续过程中特征学习过程中所基于的词语对文本特征的贡献较大，从而提高特征学习效果，提高参数调整的准确性。
78.一个实施方式中，可以基于词语的词性标签确定词语对文本特征的贡献度，比如，标点符号、语气助词、“的”等，这些词语对于文本特征的贡献较小，因此，可以将这些词语删除。
79.在本发明一个实施例中，为了提高模型训练的准确性，使得模型能够学习不同的语言表征，步骤s4之前，还可以包括：对该样本文本进行动态掩码处理，利用每一次掩码处理后的样本文本编码成的张量执行对该样本文本进行特征学习；所述特征学习不包括对掩码的预测任务。
80.具体地，动态掩码处理方式可以是对样本文本中的文本流中随机抽取设定比例的字节，然后将该设定比例的字节进行掩码处理，每一次掩码处理都是一个随机抽取的过程，因此每一次掩码处理后可以形成一个新的样本文本，从而可以进一步实现训练样本集的扩增，且利用掩码处理后的样本文本对xlm-roberta网络进行训练，可以使得xlm-roberta网络能够对特征进行不断学习，逐渐适应不同的掩码策略，从而可以学习不同的语言表征。
81.优选地，该设定比例不大于15％。
82.另外，由于训练得到的xlm-roberta模型是用于对文本进行对应分析主题的分析的，因此，在采用掩码处理后进行训练时，无需对掩码处理的样本文本中的掩码进行预测，而是在样本文本进行掩码处理后的情况下，依然能够学习到样本文本在对应分析主题上的特征，进而输出对应分析主题的分析结果标签。
83.结合步骤102中，一个样本文本中的语料可以使用多个语种，而本实施例依然可以对xlm-roberta进行训练，也是因为掩码处理后无需对掩码进行预测，只需利用掩码后剩余文本流能够分析出对应分析主题的分析结果标签即可，因此，在样本文本中的语料使用多个语种时，利用对样本文本的动态掩码处理得到的样本文本，能够训练出准确的、且能够按需进行不同分析主题的xlm-roberta模型。
84.需要说明的是，该掩码处理过程可以在s3之前，也可以在s3之后，只需保证执行s4时，是基于掩码处理后的样本文本对应的张量进行特征学习即可。
85.在步骤s4中，一个实施方式中，该利用编码得到的张量、输入的分析主题和对应的分析结果标签对该样本文本进行特征学习，可以包括：根据输入的分析主题确定各词性词语的选择比例，并根据所述选择比例对编码成的各张量进行特征选择，以将选择的张量作为对该样本文本的学习特征；其中选择的张量所对应各词性的特征词语的比例与所述选择比例相同或相近。
86.由于在对张量进行特征选择后是将选择的张量作为对样本文本的学习特征的，因此选择的张量需要与分析主题相适配，适配度越高，在进行对应主题分析时，准确率就越高。
87.具体地，可以预先建立分析主题与各词性词语选择比例的对应关系，该对应关系的建立过程可以包括：
88.获取若干个样本文本；
89.针对获取的每一个样本文本，均执行：获取对该样本文本在对应分析主题上进行中心思想提炼，得到提炼的多个词语，对该多个词语进行词性分类；
90.对若干个样本文本中对应相同分析主题的各词性词语数量进行统计，得到每一个分析主题对应的各词性词语的比例关系，将该比例关系确定与该分析主题对应的选择比例。
91.举例来说，针对分析主题1，统计得到若干个样本文本中对应该分析主题1的歌词下词语数量分别为：名词1000个、动词800个、形容词300个，则该分析主题1的各词性词语选择比例为：名词：动词：形容词＝10：8：3。也就是说，在进行特征选择时，可以按照该相同选择比例或相近选择比例进行对应词性词语的选择，从而使得特征选择之后得到的目标特征子集更适配该分析主题，提高分析结果的准确性。
92.其中，该相近选择比例可以是与该选择比例位于设定偏差范围内的比例。
93.步骤206，将所述目标特征子集和该样本文本对应分析主题分别作为输入，以对预先构建好的xlm-roberta网络进行训练。
94.本发明实施例中，构建的xlm-roberta网络中全连接层可以包括三个，以提高分析结果的准确性。
95.在训练过程中，可以更大的模型参数，比如，1024块v100gpu训练1天时间，通过增加训练步数，即扩大mini_batch参数，从而可以提升模型优化速率和模型性能。
96.最后，对步骤108进行说明，将待评估文本和目标分析主题输入至所述xlm-roberta模型中，得到所述xlm-roberta模型输出的目标分析结果标签。
97.在xlm-roberta模型训练好之后，可以按照需求对待评估文本进行不同分析主题的分析。比如，将某个人物的社交发文确定为待评估文本，通过对该待评估文本进行不同分析主题的分析，可以得出该人物的关注主题、政治倾向等结果。
98.在训练过程中，可以将样本文本也一并作为输出，分析结果标签可以返回在样本文本的末尾处。输出的样本文本可以是输入的样本文本，也可以是文本清洗后的样本文本，以易于进行下一步的统计分析。比如，利用输出的样本文本中的词语的词性比例对各词性词语的选择比例进行更新。
99.如图3、图4所示，本发明实施例提供了一种文本主题分析装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言，如图3所示，为本发明实施例提供的一种文本主题分析装置所在电子设备的一种硬件架构图，除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的电子设备通常还可以包括其他硬件，如负责处理报文的转发芯片等等。以软件实现为例，如图4所示，作为一个逻辑意义上的装置，是通过其所在电子设备的cpu将非易失性存储器中对应的计算机程序读取到内存中运行形成的。本实施例提供的一种文本主题分析装置，包括：
100.第一确定单元401，用于确定所需实现的若干个分析主题以及每一个分析主题对应的分析结果标签范围；所述分析结果标签范围包括多个分析结果标签；
101.获取单元402，用于获取包含多个样本文本的训练样本集；每一个样本文本可对应至少一个分析主题；
102.第二确定单元403，用于确定每一个样本文本在对应分析主题上的分析结果标签；该分析结果标签位于对应分析主题的分析结果标签范围内；
103.训练单元404，用于将所述训练样本集中的每一个样本文本及对应分析主题分别作为输入，将与输入的样本文本在输入的分析主题上的分析结果标签作为输出，对预先构建好的xlm-roberta网络进行训练，得到训练完成的xlm-roberta模型；
104.分析单元405，用于将待评估文本和目标分析主题输入至所述xlm-roberta模型中，得到所述xlm-roberta模型输出的目标分析结果标签。
105.在本发明一个实施例中，所述训练样本集中的样本文本从如下至少一个数据集中获得：bookcorpus数据集、维基百科英文数据集、cc-news数据集、openwebtext数据集和stories数据集。
106.在本发明一个实施例中，所述样本文本中语料所使用语种的数量为至少一个。
107.在本发明一个实施例中，所述训练单元404，具体用于：利用所述xlm-roberta网络对输入的样本文本进行文本清洗，将文本清洗后的样本文本进行分词，并根据分词结果将
分词后的样本文本编码成张量；并利用编码得到的张量、输入的分析主题和对应的分析结果标签对该样本文本进行特征学习，以对所述xlm-roberta网络中的参数进行调整。
108.在本发明一个实施例中，所述训练单元404，在所述根据分词结果将分词后的样本文本编码成张量之前，还用于为每一个词语标注词性标签，并根据每一个词语标注的词性标签将对文本特征无贡献的词语删除，以利用剩余词语执行所述编码成张量。
109.在本发明一个实施例中，所述训练单元404，在执行所述利用编码得到的张量、输入的分析主题和对应的分析结果标签对该样本文本进行特征学习时，具体包括：根据输入的分析主题确定各词性词语的选择比例，并根据所述选择比例对编码成的各张量进行特征选择，以将选择的张量作为对该样本文本的学习特征；其中选择的张量所对应各词性的特征词语的比例与所述选择比例相同或相近。
110.在本发明一个实施例中，所述训练单元404，在所述利用编码得到的张量、输入的分析主题和对应的分析结果标签对该样本文本进行特征学习之前，还用于对该样本文本进行动态掩码处理，利用每一次掩码处理后的样本文本编码成的张量执行对该样本文本进行特征学习；所述特征学习不包括对掩码的预测任务。
111.可以理解的是，本发明实施例示意的结构并不构成对一种文本主题分析装置的具体限定。在本发明的另一些实施例中，一种文本主题分析装置可以包括比图示更多或者更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。
112.上述装置内的各模块之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。
113.本发明实施例还提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时，实现本发明任一实施例中的一种文本主题分析方法。
114.本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序在被处理器执行时，使所述处理器执行本发明任一实施例中的一种文本主题分析方法。
115.具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机(或cpu或mpu)读出并执行存储在存储介质中的程序代码。
116.在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
117.用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如cd-rom、cd-r、cd-rw、dvd-rom、dvd-ram、dvd-rw、dvd+rw)、磁带、非易失性存储卡和rom。可选择地，可以由通信网络从服务器计算机上下载程序代码。
118.此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。
119.此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展模块中设置的存储器中，随后基于程
序代码的指令使安装在扩展板或者扩展模块上的cpu等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。
120.本发明各实施例至少具有如下有益效果：
121.1、在本发明一个实施例中，采用xlm-roberta网络进行模型训练，能够识别任意数量的句子组成的文本流，并且在训练用于进行文本主题分析的xlm-roberta模型时，不仅将样本文本作为输入，还需要将对样本文本所需进行的分析主题作为输入，并将该样本文本对应分析主题的分析结果标签作为输出，使得构建的网络能够学习样本文本在该分析主题上的特征，使得分析结果与输出的分析结果标签相同，如此，在需要对待评估文本进行不同分析主题的分析时，只需将待评估文本和目标分析主题输入至xlm-roberta模型中，即可获得xlm-roberta模型输出的目标分析结果标签。可见，本方案能够按照不同需求对文本进行主题分析，从而可以提高主题分析的灵活性。
122.2、在本发明一个实施例中，当所需实现的分析主题数量较多时，存在某些样本文本只具有部分分析主题的分析价值，而对于另一部分分析主题不具有分析价值，那么无需将不具有分析价值的那一部分分析主题作为这些样本文本的分析主题，以干扰模型的特征学习。因此，为了提高模型的特征学习效果，保证模型中的参数调整达到最优，训练样本集中的每一个样本文本可对应所述若干个分析主题中的至少一个分析主题，且样本文本对应的至少一个分析主题均是该样本文本具有分析价值的分析主题。
123.3、在本发明一个实施例中，当一个样本文本对应多个分析主题时，通过为该样本文本确定每一个分析主题上的分析结果标签，相当于将该样本文本扩增为与该多个分析主题一一对应的多个样本文本，该扩增方式得到的训练样本集(称之为a)，相对于训练样本集(称之为b)中一个样本文本对应一个分析主题的方式，即使本实施例中最终扩增后a与b中样本文本的数量相同，但使用a的样本文本训练得到的xlm-roberta模型，相对于使用b的样本文本训练得到的xlm-roberta模型，在对同一个文本进行不同分析主题的分析时，准确率会更高。这是因为a中存在对应不同分析主题的相同样本文本，训练过程中xlm-roberta模型会对该特征进行学习，从而能够提高对同一个文本进行不同分析主题的分析准确率。
124.4、在本发明一个实施例中，一个样本文本中的语料可以使用多个语种，而本实施例依然可以对xlm-roberta进行训练，也是因为掩码处理后无需对掩码进行预测，只需利用掩码后剩余文本流能够分析出对应分析主题的分析结果标签即可，因此，在样本文本中的语料使用多个语种时，利用对样本文本的动态掩码处理得到的样本文本，能够训练出准确的、且能够按需进行不同分析主题的xlm-roberta模型。
125.需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
…”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
126.本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序
在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：rom、ram、磁碟或者光盘等各种可以存储程序代码的介质中。
127.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页 1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张芊卢鹏肖新光
技术所有人：安天科技集团股份有限公司
我是此专利的发明人

上一篇：一种改善多囊卵巢综合征的中药组合物及其制备方法与流程
上一篇：一种缺陷的检测方法、装置以及设备与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。