本申请涉及社交账号分类技术领域,具体而言,涉及一种社交账号的分类方法及分类装置。
背景技术:
关键意见领袖(keyopionioleader,kol),通常是某个行业或领域内的权威人士,这类人士的社交账号大多拥有较多的粉丝,因而,这类人士在社交账号上发表的信息受到的关注度较高,具有一定的影响力。
因此,对这类人士的社交账号进行研究具有一定的价值,一般按照账号类别对社交账号进行研究,因而,对社交账号的正确分类就显得尤为重要。通常,通过网络爬虫爬取社交平台中社交账号对应的账号类别标签,但这种方式爬取效率不高、准确性也无法保障,而且在用户没有填写账号类别时,无法自动对社交账号进行分类。
技术实现要素:
有鉴于此,本申请实施例的目的在于提供一种社交账号的分类方法及分类装置,可以提升对社交账号进行分类的效率和准确性。
主要包括以下几个方面:
第一方面,本申请实施例提供一种社交账号的分类方法,所述分类方法包括:
获取未知类别的目标社交账号和已知类别的多个比对社交账号;
计算所述目标社交账号与每个比对社交账号之间的差异度,并基于每个比对社交账号对应的差异度从所述多个比对社交账号中选取多个候选社交账号;
获取每个候选社交账号对应的账号类别,并确定获取的每个账号类别与所述目标社交账号之间的关联度评分;
基于所述关联度评分,确定所述目标社交账号的账号类别。
在一种可能的实施方式中,根据以下步骤获取比对社交账号:
通过网络爬虫爬取任一社交用户的社交数据,其中所述社交数据包括所述社交用户关注的社交关注账号;
获取所述社交关注账号对应的粉丝数量和账号类别,并验证所述社交关注账号的账号类别是否准确;
若所述社交关注账号的粉丝数量大于或等于第一预设阈值,且所述社交账号的账号类别准确,确定所述社交关注账号为比对社交账号。
在一种可能的实施方式中,根据以下步骤计算差异度:
获取关注所述目标社交账号和所述多个比对社交账号的所有的社交用户的账号关注信息;
基于所述账号关注信息,构建所述目标社交账号的特征向量和每个比对社交账号的特征向量;
根据所述目标社交账号的特征向量和每个比对社交账号的特征向量,计算所述目标社交账号与每个比对社交账号之间的差异度;
其中,所述特征向量的维度数等于所述所有的社交用户的总数量;所述目标社交账号的特征向量中的每个元素表示所述所有的社交用户中每个社交用户是否关注所述目标社交账号;每个比对社交账号的特征向量中的每个元素表示所述所有的社交用户中每个社交用户是否关注每个比对社交账号。
在一种可能的实施方式中,所述根据所述目标社交账号的特征向量和每个比对社交账号的特征向量,计算所述目标社交账号与每个比对社交账号之间的差异度,包括:
计算所述目标社交账号的特征向量与每个比对社交账号的特征向量之间的欧氏距离,并将所述欧氏距离确定为所述差异度;或
计算所述目标社交账号的特征向量与每个比对社交账号的特征向量之间的余弦距离,并将所述余弦距离确定为所述差异度;或
计算所述目标社交账号的特征向量与每个比对社交账号的特征向量之间的马氏距离,并将所述马氏距离确定为所述差异度。
在一种可能的实施方式中,所述基于每个比对社交账号对应的差异度从所述多个比对社交账号中选取多个候选社交账号,包括:
从所述多个比对社交账号中选取预设数量的比对社交账号,并将被选取的比对社交账号确定为候选社交账号;
其中,每个被选取的比对社交账号对应的差异度小于每个未被选取的比对社交账号对应的差异度。
在一种可能的实施方式中,所述基于每个比对社交账号对应的差异度从所述多个比对社交账号中选取多个候选社交账号,包括:
判断每个比对社交账号对应的差异度是否小于或等于第二预设阈值;
若所述差异度小于或等于所述第二预设阈值,将所述差异度对应的比对社交账号确定为候选社交账号。
在一种可能的实施方式中,所述确定获取的每个账号类别与所述目标社交账号之间的关联度评分,包括:
基于每个账号类别所属的候选社交账号对应的差异度,确定每个账号类别与所述目标社交账号之间的关联度评分。
在一种可能的实施方式中,根据以下公式计算关联度评分:
其中,s为每个账号类别与所述目标社交账号之间的关联度评分,i为正整数,n为每个账号类别所属的候选社交账号的数量,di为每个账号类别所属的候选社交账号对应的差异度。
在一种可能的实施方式中,所述基于所述关联度评分,确定所述目标社交账号的账号类别,包括:
判断每个账号类别与所述目标社交账号之间的关联度评分是否大于或等于第三预设阈值;
若所述关联度评分大于或等于所述第三预设阈值,将所述关联度评分对应的账号类别确定为所述目标社交账号的账号类别。
第二方面,本申请实施例还提供了一种社交账号的分类装置,所述分类装置包括:
第一获取模块,用于获取未知类别的目标社交账号和已知类别的多个比对社交账号;
计算模块,用于计算所述目标社交账号与每个比对社交账号之间的差异度,并基于每个比对社交账号对应的差异度从所述多个比对社交账号中选取多个候选社交账号;
第二获取模块,用于获取每个候选社交账号对应的账号类别,并确定获取的每个账号类别与所述目标社交账号之间的关联度评分;
确定模块,用于基于所述关联度评分,确定所述目标社交账号的账号类别。
在一种可能的实施方式中,所述第一获取模块,用于根据以下步骤获取比对社交账号:
通过网络爬虫爬取任一社交用户的社交数据,其中所述社交数据包括所述社交用户关注的社交关注账号;
获取所述社交关注账号对应的粉丝数量和账号类别,并验证所述社交关注账号的账号类别是否准确;
若所述社交关注账号的粉丝数量大于或等于第一预设阈值,且所述社交账号的账号类别准确,确定所述社交关注账号为比对社交账号。
在一种可能的实施方式中,所述计算模块,用于根据以下步骤计算差异度:
获取关注所述目标社交账号和所述多个比对社交账号的所有的社交用户的账号关注信息;
基于所述账号关注信息,构建所述目标社交账号的特征向量和每个比对社交账号的特征向量;
根据所述目标社交账号的特征向量和每个比对社交账号的特征向量,计算所述目标社交账号与每个比对社交账号之间的差异度;
其中,所述特征向量的维度数等于所述所有的社交用户的总数量;所述目标社交账号的特征向量中的每个元素表示所述所有的社交用户中每个社交用户是否关注所述目标社交账号;每个比对社交账号的特征向量中的每个元素表示所述所有的社交用户中每个社交用户是否关注每个比对社交账号。
在一种可能的实施方式中,所述计算模块,用于根据以下步骤计算差异度:
计算所述目标社交账号的特征向量与每个比对社交账号的特征向量之间的欧氏距离,并将所述欧氏距离确定为所述差异度;或
计算所述目标社交账号的特征向量与每个比对社交账号的特征向量之间的余弦距离,并将所述余弦距离确定为所述差异度;或
计算所述目标社交账号的特征向量与每个比对社交账号的特征向量之间的马氏距离,并将所述马氏距离确定为所述差异度。
在一种可能的实施方式中,所述计算模块,还用于根据以下步骤确定多个候选社交账号:
从所述多个比对社交账号中选取预设数量的比对社交账号,并将被选取的比对社交账号确定为候选社交账号;
其中,每个被选取的比对社交账号对应的差异度小于每个未被选取的比对社交账号对应的差异度。
在一种可能的实施方式中,所述计算模块,还用于根据以下步骤确定多个候选社交账号:
判断每个比对社交账号对应的差异度是否小于或等于第二预设阈值;
若所述差异度小于或等于所述第二预设阈值,将所述差异度对应的比对社交账号确定为候选社交账号。
在一种可能的实施方式中,所述确定模块,根据以下步骤确定关联度评分:
基于每个账号类别所属的候选社交账号对应的差异度,确定每个账号类别与所述目标社交账号之间的关联度评分。
在一种可能的实施方式中,根据以下公式计算关联度评分:
其中,s为每个账号类别与所述目标社交账号之间的关联度评分,i为正整数,n为每个账号类别所属的候选社交账号的数量,di为每个账号类别所属的候选社交账号对应的差异度。
在一种可能的实施方式中,所述确定模块,用于根据以下步骤确定账号类别:
判断每个账号类别与所述目标社交账号之间的关联度评分是否大于或等于第三预设阈值;
若所述关联度评分大于或等于所述第三预设阈值,将所述关联度评分对应的账号类别确定为所述目标社交账号的账号类别。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行上述第一方面或第一方面中任一种可能的实施方式中所述的社交账号的分类方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面或第一方面中任一种可能的实施方式中所述的社交账号的分类方法的步骤。
在本申请实施例中,通过计算出的目标社交账号和多个比对社交账号之间的差异度,可以从多个比对社交账号中选取多个候选社交账号,这样,通过获取每个候选社交账号对应的账号类别,可以确定获取的每个账号类别与目标社交账号之间的关联度评分,进一步地,基于关联度评分,可以确定目标社交账号的账号类别,采用上述方式,可以提升对社交账号进行分类的效率和准确性。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例一所提供的一种社交账号的分类方法的流程图;
图2示出了本申请实施例二所提供的另一种社交账号的分类方法的流程图;
图3示出了本申请实施例三所提供的一种社交账号的分类装置的功能模块图;
图4示出了本申请实施例四所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中的附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应当理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的全部其他实施例,都属于本申请保护的范围。
为了使得本领域技术人员能够使用本申请内容,结合特定应用场景“社交账号的分类”,给出以下实施方式,对于本领域技术人员来说,在不脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。
本申请实施例下述方法、装置、电子设备或计算机可读存储介质可以应用于任何需要进行社交账号的分类的场景,本申请实施例并不对具体的应用场景作限制,任何使用本申请实施例提供的社交账号的分类方法及分类装置的方案均在本申请保护范围内。
值得注意的是,在本申请提出之前,现有方案中,通过网络爬虫爬取社交平台中社交账号对应的账号类别标签,但这种方式爬取效率不高、准确性也无法保障,而且在用户没有填写账号类别时,无法自动对社交账号进行分类。
针对上述问题,本申请实施例通过计算出的目标社交账号和多个比对社交账号之间的差异度,可以从多个比对社交账号中选取多个候选社交账号,这样,通过获取每个候选社交账号对应的账号类别,可以确定获取的每个账号类别与目标社交账号之间的关联度评分,进一步地,基于关联度评分,可以确定目标社交账号的账号类别,采用上述方式,可以提升对社交账号进行分类的效率和准确性。
需要说明的是,关键意见领袖,通常是某个行业或领域内的权威人士,这类人士的社交账号大多拥有较多的粉丝,因而,这类人士在社交账号上发表的信息受到的关注度较高,具有一定的影响力。因此,对这类人士的社交账号进行研究具有一定的价值,一般按照账号类别对社交账号进行研究,因而,对社交账号的正确分类就显得尤为重要。
需要说明的是,社交账号可以为在各种社交平台上注册的账号,比如微博账号、公众号、贴吧账号等。社交账号的账号类别可以为美妆、作家、主持人、体育、动漫、养生、金融、旅游、明星、文学、医疗等。
为便于对本申请进行理解,下面结合具体实施例对本申请提供的技术方案进行详细说明。
实施例一
请参阅图1,图1为本申请实施例一所提供的一种社交账号的分类方法的流程图,如图1中所示,本申请实施例提供的社交账号的分类方法,包括:
s101:获取未知类别的目标社交账号和已知类别的多个比对社交账号。
在具体实施中,可以先获取待进行分类的目标社交账号和已知类别的多个比对社交账号,这里,已知类别的比对社交账号可以通过网络爬虫、机器学习等方式进行获取。
s102:计算所述目标社交账号与每个比对社交账号之间的差异度,并基于每个比对社交账号对应的差异度从所述多个比对社交账号中选取多个候选社交账号。
在具体实施中,差异度是可以定量的表征目标社交账号和比对社交账号之间的差异,因而,根据分别计算得到的目标社交账号与每个比对社交账号之间的差异度,可以从多个比对社交账号中选取出多个与目标社交账号差异较小的比对社交账号作为候选社交账号,这样,可以过滤掉大量与目标社交账号差异较大的比对社交账号,为提升对目标社交账号进行分类的效率提供了保障。
s103:获取每个候选社交账号对应的账号类别,并确定获取的每个账号类别与所述目标社交账号之间的关联度评分。
在具体实施中,由于选取的候选社交账号与目标社交账号差异较小,所以目标社交账号的账号类别与候选社交账号的账号类别相同的概率较大,因而,可以通过计算出的每个候选社交账号对应的账号类别与目标社交账号之间的关联度评分,来确定目标社交账号的账号类别,采用上述方式,可以提升对目标社交账号进行分类的准确性。
s104:基于所述关联度评分,确定所述目标社交账号的账号类别。
在具体实施中,在计算出每个候选社交账号对应的账号类别与目标社交账号之间的关联度评分之后,可以将较高关联度评分对应的账号类别确定为目标社交账号的账号类别。
需要说明的是,每个候选社交账号至少对应一个账号类别,确定出的目标社交账号的账号类别可以为一个或多个,这样,可以挖掘出目标社交账号丰富的类别信息,进而可以更全面的反应出通过目标社交账号发表的信息的类别。
在本申请实施例中,通过计算出的目标社交账号和多个比对社交账号之间的差异度,可以从多个比对社交账号中选取多个候选社交账号,这样,通过获取每个候选社交账号对应的账号类别,可以确定获取的每个账号类别与目标社交账号之间的关联度评分,进一步地,基于关联度评分,可以确定目标社交账号的账号类别,采用上述方式,可以提升对社交账号进行分类的效率和准确性。
在一种可能的实施方式中,根据以下步骤获取比对社交账号:
步骤(1):通过网络爬虫爬取任一社交用户的社交数据,其中所述社交数据包括所述社交用户关注的社交关注账号。
在具体实施中,可以通过网络爬虫爬取大量社交用户的社交数据,并从社交数据中获取到每个社交用户所关注的社交关注账号的列表,进而获取到社交关注账号。
需要说明的是,通常社交用户关注的社交关注账号可以分为好友、kol、营销号等。
步骤(2):获取所述社交关注账号对应的粉丝数量和账号类别,并验证所述社交关注账号的账号类别是否准确。
在具体实施中,通常kol拥有的粉丝数量较多,因而可以对每个社交关注账号的粉丝数量进行统计,进而可以通过社交关注账号对应的粉丝数量来区分出该社交账号是否为kol的账号。
这里,对社交关注账号的账号类别的准确性进行验证的方式有多种,具体地,可以通过搜索平台对社交关注账号的账号类别进行验证,也可以通过人工进行对社交关注账号的账号类别进行验证。
步骤(3):若所述社交关注账号的粉丝数量大于或等于第一预设阈值,且所述社交账号的账号类别准确,确定所述社交关注账号为比对社交账号。
在具体实施中,通常kol拥有的粉丝数量较多,因而可以通过社交关注账号对应的粉丝数量来区分出该社交账号是否为kol的账号,具体地,可以预先设置一个第一预设阈值,并将粉丝数量大于或等于第一预设阈值的社交关注账号,确定为比对社交账号,这里,比对社交账号的账号类别是经过验证的,且是准确的,这样,可以保证比对社交账号的账号类型准确无误。通过使用上述方式确定到的多个比对社交账号与目标社交账号进行比对,过滤掉了大量带有干扰的社交关注账号,为提升对目标社交账号进行分类的效率提供了保障。
这里,第一预设阈值可以设为100000,通常认为粉丝量大于或等于100000的社交用户为kol。
需要说明的是,目标社交账号可以为kol的账号,也可以为普通社交用户的账号,即本申请所提供的技术方案可以对任何社交账号进行分类。
在该实施例中,通过网络爬虫爬取任一社交用户的社交数据,可以获取到社交关注账号的粉丝数量和账号类别,进而根据粉丝数量可以从多个社交关注账号中筛选出多个比对社交账号。这样,通过使用上述方式确定到的多个比对社交账号与目标社交账号进行比对,过滤掉了大量带有干扰的社交关注账号,为提升对目标社交账号进行分类的效率提供了保障。
在一种可能的实施方式中,根据以下步骤计算差异度:
步骤a:获取关注所述目标社交账号和所述多个比对社交账号的所有的社交用户的账号关注信息。
在具体实施中,可以分别获取关注目标社交账号的社交用户,以及每个比对社交账号的账号关注信息,这里,账号关注信息包含每个比对社交账号关注那些社交账号的信息。
步骤b:基于所述账号关注信息,构建所述目标社交账号的特征向量和每个比对社交账号的特征向量。
在具体实施中,目标社交账号的特征向量和每个比对社交账号的特征向量的向量维度数相同,这里,特征向量的维度数等于所有的社交用户的总数量,具体地,目标社交账号的特征向量中的每个元素用于表征所有的社交用户中每个社交用户是否关注目标社交账号,每个比对社交账号的特征向量中的每个元素表征所有的社交用户中每个社交用户是否关注每个比对社交账号。
这里,表1示出了一种目标社交账号的特征向量和多个比对社交账号的特征向量的构建实施方式。
表1
如表1所示,若社交用户关注目标社交账号,则在对应的位置置1,若社交用户没有关注目标社交账号,则在对应的位置置0;若社交用户关注比对社交账号,则在对应的位置置1,若社交用户没有关注比对社交账号,则在对应的位置置0,这样,可以根据上述表格中的填写内容的规则建立特征向量,比如,表1中目标社交账号对应的特征向量为(1011001…1),这里,n为特征向量的维度数,m为比对社交账号的数量。
步骤c:根据所述目标社交账号的特征向量和每个比对社交账号的特征向量,计算所述目标社交账号与每个比对社交账号之间的差异度。
在具体实施中,构建的目标社交账户的特征向量和每个比对社交账号的特征向量的向量维度数和特征向量中每个元素表征的含义相同,这样,根据目标社交账号的特征向量和每个比对社交账号的特征向量,就可以计算出目标社交账号与每个比对社交账号之间的差异度。
其中,所述特征向量的维度数等于所述所有的社交用户的总数量;所述目标社交账号的特征向量中的每个元素表示所述所有的社交用户中每个社交用户是否关注所述目标社交账号;每个比对社交账号的特征向量中的每个元素表示所述所有的社交用户中每个社交用户是否关注每个比对社交账号。
在一种可能的实施方式中,在步骤c中根据所述目标社交账号的特征向量和每个比对社交账号的特征向量,计算所述目标社交账号与每个比对社交账号之间的差异度,可以包括以下方式:
方式一:计算所述目标社交账号的特征向量与每个比对社交账号的特征向量之间的欧氏距离,并将所述欧氏距离确定为所述差异度。
在具体实施中,可以用欧氏距离来表示差异度,具体地,可以根据以下公式计算目标社交账号的特征向量与一个比对社交账号的特征向量之间的欧氏距离
方式二:计算所述目标社交账号的特征向量与每个比对社交账号的特征向量之间的余弦距离,并将所述余弦距离确定为所述差异度。
在具体实施中,可以用余弦距离来表示差异度,具体地,可以根据以下公式计算目标社交账号的特征向量与一个比对社交账号的特征向量之间的余弦距离
方式三:计算所述目标社交账号的特征向量与每个比对社交账号的特征向量之间的马氏距离,并将所述马氏距离确定为所述差异度。
在具体实施中,可以用马氏距离来表示差异度,具体地,可以根据以下公式计算目标社交账号的特征向量与一个比对社交账号的特征向量之间的马氏距离k=sqrt(χ-μ)′∑∧(-1)(χ-μ);其中,k为目标社交账号的特征向量χ与该比对社交账号的特征向量μ之间的马氏距离。
在该实施例中,本申请提供了多种计算目标社交账号的特征向量与每个比对社交账号的特征向量之间的差异度的方式,用户可以自主选择计算公式,可以提升计算差异度的灵活性。
在一种可能的实施方式中,步骤s102中基于每个比对社交账号对应的差异度从所述多个比对社交账号中选取多个候选社交账号,包括:
从所述多个比对社交账号中选取预设数量的比对社交账号,并将被选取的比对社交账号确定为候选社交账号。其中,每个被选取的比对社交账号对应的差异度小于每个未被选取的比对社交账号对应的差异度。
在具体实施中,对计算得到的目标社交账号与每个比对社交账号之间的多个差异度按照取值由小到大进行排序,并从排行榜中选取排在前面的差异度,将上述差异度对应的比对社交账号作为候选社交账号。由于差异度是可以定量的表征目标社交账号和比对社交账号之间的差异的,这样,可以通过差异度过滤掉大量与目标社交账号差异较大的比对社交账号,为提升对目标社交账号进行分类的效率提供了保障。
在一种可能的实施方式中,步骤s102中基于每个比对社交账号对应的差异度从所述多个比对社交账号中选取多个候选社交账号,包括:
判断每个比对社交账号对应的差异度是否小于或等于第二预设阈值;若所述差异度小于或等于所述第二预设阈值,将所述差异度对应的比对社交账号确定为候选社交账号。
在具体实施中,对计算得到的目标社交账号与每个比对社交账号之间的多个差异度与第二预设阈值进行比较,并将差异度大于或等于第二预设阈值对应的比对社交账号作为候选社交账号。由于差异度是可以定量的表征目标社交账号和比对社交账号之间的差异的,这样,可以通过差异度过滤掉大量与目标社交账号差异较大的比对社交账号,为提升对目标社交账号进行分类的效率提供了保障。
实施例二
请参阅图2,图2为本申请实施例二所提供的另一种社交账号的分类方法的流程图,如图2中所示,本申请实施例提供的社交账号的分类方法,包括:
s201:获取未知类别的目标社交账号和已知类别的多个比对社交账号。
在具体实施中,可以先获取待进行分类的目标社交账号和已知类别的多个比对社交账号,这里,已知类别的比对社交账号可以通过网络爬虫、机器学习等方式进行获取。
s202:计算所述目标社交账号与每个比对社交账号之间的差异度,并基于每个比对社交账号对应的差异度从所述多个比对社交账号中选取多个候选社交账号。
在具体实施中,差异度是可以定量的表征目标社交账号和比对社交账号之间的差异,因而,根据分别计算得到的目标社交账号与每个比对社交账号之间的差异度,可以从多个比对社交账号中选取出多个与目标社交账号差异较小的比对社交账号作为候选社交账号,这样,可以过滤掉大量与目标社交账号差异较大的比对社交账号,为提升对目标社交账号进行分类的效率提供了保障。
s203:获取每个候选社交账号对应的账号类别,并基于每个账号类别所属的候选社交账号对应的差异度,确定每个账号类别与所述目标社交账号之间的关联度评分。
在具体实施中,由于选取的候选社交账号与目标社交账号差异较小,所以目标社交账号的账号类别与候选社交账号的账号类别相同的概率较大,因而,可以通过计算出的每个候选社交账号对应的账号类别与目标社交账号之间的关联度评分,来确定目标社交账号的账号类别,具体地,可以基于每个账号类别所属的候选社交账号对应的差异度,确定每个账号类别与目标社交账号之间的关联度评分。采用上述方式,可以提升对目标社交账号进行分类的准确性。
s204:基于所述关联度评分,确定所述目标社交账号的账号类别。
在具体实施中,在计算出每个候选社交账号对应的账号类别与目标社交账号之间的关联度评分之后,可以将较高关联度评分对应的账号类别确定为目标社交账号的账号类别。
需要说明的是,每个候选社交账号至少对应一个账号类别,确定出的目标社交账号的账号类别可以为一个或多个,这样,可以挖掘出目标社交账号丰富的类别信息,进而可以更全面的反应出通过目标社交账号发表的信息的类别。
在本申请实施例中,通过计算出的目标社交账号和多个比对社交账号之间的差异度,可以从多个比对社交账号中选取多个候选社交账号,这样,通过获取每个候选社交账号对应的账号类别,并基于每个账号类别所属的候选社交账号对应的差异度,可以确定每个账号类别与目标社交账号之间的关联度评分,进一步地,基于关联度评分,可以确定目标社交账号的账号类别,采用上述方式,可以提升对社交账号进行分类的效率和准确性。
在一种可能的实施方式中,根据以下公式计算关联度评分:
其中,s为每个账号类别与所述目标社交账号之间的关联度评分,i为正整数,n为每个账号类别所属的候选社交账号的数量,di为每个账号类别所属的候选社交账号对应的差异度。
在具体实施中,对于一个账号类别与目标社交账号之间的关联度评分,可以将该账号类别所属的候选社交账号对应的差异度的倒数进行求和,并将求和对应得到的值,作为该账号类别与目标社交账号之间的关联度评分。
一示例中,从多个比对社交账号中获取的多个候选社交账号为候选社交账号a、b、c、d、e;候选社交账号a对应的账号类别为“旅游”和“作家”,候选社交账号b对应的账号类别为“体育”,候选社交账号c对应的账号类别为“旅游”,候选社交账号d对应的账号类别为“医疗”,候选社交账号e对应的账号类别为“养生”、“旅游”;候选社交账号a、b、c、d、e对应的差异度分别为d1、d2、d3、d4、d5,则对于账号类别“旅游”,计算账号类别“旅游”与目标社交账号之间的关联度评分为
在一种可能的实施方式中,在步骤s204中基于所述关联度评分,确定所述目标社交账号的账号类别,包括:
判断每个账号类别与所述目标社交账号之间的关联度评分是否大于或等于第三预设阈值;若所述关联度评分大于或等于所述第三预设阈值,将所述关联度评分对应的账号类别确定为所述目标社交账号的账号类别。
在该实施例中,在计算获取的每个账号类别与目标社交账号之间的关联度评分之后,可以将预设的第三阈值与每个关联度评分进行比较,将关联度评分大于第三预设阈值对应的账号类别作为目标社交账号的账号类别。通过采用上述方式,可以对目标社交账号的账号类别进行进一步筛选,可以准确地确定出目标社交账号的账号类别。
实施例三
基于同一申请构思,本申请实施例三中还提供了与实施例一和实施例二提供的社交账号的分类方法对应的社交账号的分类装置,由于本申请实施例中的装置解决问题的原理与本申请上述实施例一和实施例二的社交账号的分类方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参见图3所示,为本申请实施例三提供的一种社交账号的分类装置300的功能模块图,其中,该社交账号的分类装置300包括:
第一获取模块310,用于获取未知类别的目标社交账号和已知类别的多个比对社交账号;
计算模块320,用于计算所述目标社交账号与每个比对社交账号之间的差异度,并基于每个比对社交账号对应的差异度从所述多个比对社交账号中选取多个候选社交账号;
第二获取模块330,用于获取每个候选社交账号对应的账号类别,并确定获取的每个账号类别与所述目标社交账号之间的关联度评分;
确定模块340,用于基于所述关联度评分,确定所述目标社交账号的账号类别。
在本申请实施例中,通过计算出的目标社交账号和多个比对社交账号之间的差异度,可以从多个比对社交账号中选取多个候选社交账号,这样,通过获取每个候选社交账号对应的账号类别,可以确定获取的每个账号类别与目标社交账号之间的关联度评分,进一步地,基于关联度评分,可以确定目标社交账号的账号类别,采用上述方式,可以提升对社交账号进行分类的效率和准确性。
在一种可能的实施方式中,所述第一获取模块310,用于根据以下步骤获取比对社交账号:
通过网络爬虫爬取任一社交用户的社交数据,其中所述社交数据包括所述社交用户关注的社交关注账号;
获取所述社交关注账号对应的粉丝数量和账号类别,并验证所述社交关注账号的账号类别是否准确;
若所述社交关注账号的粉丝数量大于或等于第一预设阈值,且所述社交账号的账号类别准确,确定所述社交关注账号为比对社交账号。
在一种可能的实施方式中,所述计算模块320,用于根据以下步骤计算差异度:
获取关注所述目标社交账号和所述多个比对社交账号的所有的社交用户的账号关注信息;
基于所述账号关注信息,构建所述目标社交账号的特征向量和每个比对社交账号的特征向量;
根据所述目标社交账号的特征向量和每个比对社交账号的特征向量,计算所述目标社交账号与每个比对社交账号之间的差异度;
其中,所述特征向量的维度数等于所述所有的社交用户的总数量;所述目标社交账号的特征向量中的每个元素表示所述所有的社交用户中每个社交用户是否关注所述目标社交账号;每个比对社交账号的特征向量中的每个元素表示所述所有的社交用户中每个社交用户是否关注每个比对社交账号。
在一种可能的实施方式中,所述计算模块320,用于根据以下步骤计算差异度:
计算所述目标社交账号的特征向量与每个比对社交账号的特征向量之间的欧氏距离,并将所述欧氏距离确定为所述差异度;或
计算所述目标社交账号的特征向量与每个比对社交账号的特征向量之间的余弦距离,并将所述余弦距离确定为所述差异度;或
计算所述目标社交账号的特征向量与每个比对社交账号的特征向量之间的马氏距离,并将所述马氏距离确定为所述差异度。
在一种可能的实施方式中,所述计算模块320,还用于根据以下步骤确定多个候选社交账号:
从所述多个比对社交账号中选取预设数量的比对社交账号,并将被选取的比对社交账号确定为候选社交账号;
其中,每个被选取的比对社交账号对应的差异度小于每个未被选取的比对社交账号对应的差异度。
在一种可能的实施方式中,所述计算模块320,还用于根据以下步骤确定多个候选社交账号:
判断每个比对社交账号对应的差异度是否小于或等于第二预设阈值;
若所述差异度小于或等于所述第二预设阈值,将所述差异度对应的比对社交账号确定为候选社交账号。
在一种可能的实施方式中,所述确定模块340,根据以下步骤确定关联度评分:
基于每个账号类别所属的候选社交账号对应的差异度,确定每个账号类别与所述目标社交账号之间的关联度评分。
在一种可能的实施方式中,根据以下公式计算关联度评分:
其中,s为每个账号类别与所述目标社交账号之间的关联度评分,i为正整数,n为每个账号类别所属的候选社交账号的数量,di为每个账号类别所属的候选社交账号对应的差异度。
在一种可能的实施方式中,所述确定模块340,用于根据以下步骤确定账号类别:
判断每个账号类别与所述目标社交账号之间的关联度评分是否大于或等于第三预设阈值;
若所述关联度评分大于或等于所述第三预设阈值,将所述关联度评分对应的账号类别确定为所述目标社交账号的账号类别。
实施例四
基于同一申请构思,参见图4所示,为本申请实施例四提供的一种电子设备400的结构示意图,包括:处理器410、存储器420和总线430,所述存储器420存储有所述处理器410可执行的机器可读指令,当电子设备400运行时,所述处理器410与所述存储器420之间通过所述总线430进行通信,所述机器可读指令被所述处理器410运行时执行如实施例一,或/或实施例二中任一所述的社交账号的分类方法的步骤。
具体地,所述机器可读指令被所述处理器410执行时可以执行如下处理:
获取未知类别的目标社交账号和已知类别的多个比对社交账号;
计算所述目标社交账号与每个比对社交账号之间的差异度,并基于每个比对社交账号对应的差异度从所述多个比对社交账号中选取多个候选社交账号;
获取每个候选社交账号对应的账号类别,并确定获取的每个账号类别与所述目标社交账号之间的关联度评分;
基于所述关联度评分,确定所述目标社交账号的账号类别。
在本申请实施例中,通过计算出的目标社交账号和多个比对社交账号之间的差异度,可以从多个比对社交账号中选取多个候选社交账号,这样,通过获取每个候选社交账号对应的账号类别,可以确定获取的每个账号类别与目标社交账号之间的关联度评分,进一步地,基于关联度评分,可以确定目标社交账号的账号类别,采用上述方式,可以提升对社交账号进行分类的效率和准确性。
实施例五
基于同一申请构思,本申请实施例五还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述实施例一,和/或实施例二中提供的社交账号的分类方法的步骤。
具体地,所述存储介质能够为通用的存储介质,如移动磁盘、硬盘等,所述存储介质上的计算机程序被运行时,能够执行上述社交账号的分类方法,可以提升对社交账号进行分类的效率和准确性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应所述理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的部分可以以软件产品的形式体现出来,所述计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
玻璃钢生产厂家澄江市玻璃钢雕塑哪家好玻璃钢花盆哪家强些黑龙江步行街玻璃钢雕塑多少钱韶关玻璃钢公园雕塑仿砂岩玻璃钢花盆公司益阳玻璃钢雕塑产品珠海玻璃钢公仔雕塑图片公园摆件玻璃钢雕塑服务电话吉林玻璃钢雕塑凳子无锡商场国庆美陈湛江定制玻璃钢卡通雕塑云南玻璃钢雕塑供应商吉林玻璃钢吉祥物雕塑玻璃钢花盆儿童画简单商场海报美陈图片新密室内不锈钢玻璃钢雕塑公司玻璃钢花盆的小知识点楼盘玻璃钢园林艺术雕塑福州园林玻璃钢雕塑批发玻璃钢艺术品雕塑作品工艺玻璃钢人物雕塑规定福建玻璃钢花盆哪家好无锡玻璃钢景观雕塑公司玻璃钢人像雕塑厂河北喷泉雕塑玻璃钢卫辉玻璃钢雕塑拉萨园林玻璃钢雕塑订做石碣玻璃钢造型雕塑乐园玻璃钢卡通雕塑厂家蚌埠景区玻璃钢雕塑制作香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万