【过程挖掘算法6】Split Miner

35 篇文章 67 订阅
订阅专栏

Split Miner是继Inductive Miner又一先进的过程挖掘算法,是在2018年由Adriano Augusto提出来的。接下来,我们将详细地介绍这一算法。

 1.背景介绍

        从事件日志中自动发现流程模型的问题在过去二十年中得到了深入的研究。尽管有丰富的应用领域,但最先进的模型发现算法比如Inductive Miner,当应用于真实的业务流程时,会避免两种反复出现的缺陷:(i)产生大量的类似意大利面一样的模型;(ii)产生的流程模型要么不适合事件日志(低拟合度),要么过于概括(低精度)。事实证明,在这些质量维度之间以稳健且可扩展的方式进行权衡是难以实现的。

        本文介绍了一种自动化的流程发现方法,鉴于对发现分裂网关(split gateways)的关注,提出的方法被称为Split Miner,它可以生成简单的流程模型,具有较低的复杂度和一致的高且平衡的适应度和精度,同时实现比最先进的方法更快的执行时间。Split Miner结合了一种新的方法来过滤由事件日志产生的直接跟随关系图(DFG),以及一种识别分割网关组合的方法,该组合能够准确地捕获DFG中相邻节点之间的并发性、冲突和因果关系。SplitMiner也是一种自动进程发现方法,可以保证生成无死锁的并发进程模型,同时不限于生成块结构的进程模型

2. Split Miner算法介绍

该算法的大致流程如下图所示,以一个事件日志作为输入,返回一个BPMN模型,共分为6步。

方法流程图
  1. 首先构造一个DFG,与启发式挖掘算法(Heuristic Miner)不同的是,Split Miner算法不会立即过滤DFG,它分析去删除其中的自循环和短循环关系,并发现两个活动之间的同步关(Concurrency)。
  2. 在DFG中,同步关系为存在两个活动之间,例如a和b,显示为两个弧:一个从a到另一个从b,和从b到a,这意味着因果关系和并发性是混合的。为了解决这个问题,每当发现a和b之间可能存在类似同步关系时,就会从DFG中删除这两个任务之间的弧,这被称为:(pruned DFG)修剪DFG(PDFG)
  3. 在第三步中,在PDFG上应用过滤算法,以达到平衡适应度和精度,保持较低的控制流复杂度。
  4. 在第四步中,为过滤后的PDFG中具有多个输出弧的每个活动发现拆分网关(split gateways)。
  5. 类似地,在第五步中,从具有多个传入弧的任务中发现join网关。
  6. 最后,如果发现任何一个OR-joins连接,它们将被删除(只要可能)。

2.1 删除自循环和短循环关系

在DFG中如果存在自循环,则活动a后面直接跟随活动a,则a存在自循环。

给定两个活动a和b,如果满足以下条件,则存在一个短循环:

条件1保证了活动a、b不存在自循环, 实际上,如果我们考虑一个模型,它包含一个自循环a和一个正常任务b之间的并发性,那么在流程执行期间记录的轨迹可能包含子跟踪<a、 b,a>(。放弃满足条件1的后一种情况,我们使用条件2来确保活动a,b是存在短循环的。

自循环从DFG中移除,并在最后在输出BPMN模型中恢复

2.2 修剪DFG(PDFG)

给定一个DFG和两个任务a、b,如果下列三个条件成立:假设a和b是同步的(a||b):

条件3实际上描述了一个a||b,边e1=(a,b)和e2=(b,a)的存在意味着a和b可以以任何顺序出现。然而,这不足以假设并发性,因为这种关系可能在三种情况下成立:(i)a和b形成一个短循环;(ii)a和b同时存在;或者(iii)e1或e2非常罕见,因此可以忽略。条件4避免了情况(i)。

条件5背后的思想是,两个任务同时进行,|a→ b |和| b→ a |应尽可能接近,即两个交错的观察频率相似。因此,ε的值越小,并发关系就必须越平衡才能被捕获。反过来,设置ε接近于1将捕获所有可能的并发关系。

无论何时找到a||b、 我们将e1和e2从E中移除,因为不存在因果关系,而是存在并发性另一方面,如果我们发现e1或e2代表不频繁的行为,我们会删除两条边中频率最低的一条。这一步的输出是一个修剪过的DFG。

 

2.3 过滤算法

       为了从PDFG导出一个合理、简单和准确的BPMN过程模型,后者必须满足三个特性。首先,PDFG的每个节点必须位于从单个起始节点(源)到单个结束节点(接收器)的路径上。此属性对于确保可靠的流程模型(无死锁和不缺少同步)是必需的。其次,对于每个节点,其从source到sink的路径必须是具有最大容量的路径。在我们的上下文中,路径的容量是路径最不频繁边的频率。此属性旨在最大化适应度,因为路径的容量与可在该路径上重放的记录道数匹配。第三,PDFG的边数必须最小。该属性使CFC最小化,精度最大,因为边缘数与分支因子(用于计算CFC)和允许行为量成正比。

        为了满足这三个特性,设计了Dijkstra最短路径算法的变体.Dijkstra算法和我们的算法之间的主要区别如下:(i)在探索图的过程中,我们不传播路径的长度,而是传播路径的容量;(ii)Dijkstra解决了最小化问题,而我们解决了最大化问题。此外,由于我们希望确保每个节点都可以从源到达,并且可以到达sink(即在从源到接收器的路径上),因此我们执行了双宽度优先探索向前(源到接收器)和向后(接收器到源)。在正向探索过程中,对于PDFG的每个节点,我们会发现其最大源到节点容量(正向容量),以及授予此类正向容量的传入边缘(最佳传入边缘)。同样,在反向探索过程中,我们发现最大节点到接收器容量(反向容量)和输出边(最佳输出边)。通过该算法,我们满足了第一和第二个属性,并对PDFG中保留的最大边数设置了一个限制,即始终小于2 | T |(即每个节点最多有一条传入边和一条传出边)。然而,有限的边数可能会减少最终模型可以重播的行为量,从而降低其适应度。为了在适应度和精度之间达成平衡,我们引入了一个频率阈值,让用户平衡这两个指标。精确地说,我们计算每个节点最频繁的传入和传出边缘频率的η百分位数,并保留那些频率超过阈值的边缘。重要的是要注意,百分位数并没有占据Ep中所有边的频率,否则我们只会保留所有边的η百分比。

2.4-2.5 过滤后的PDFG到BPMN流程模型

        我们分别将活动集和边集初始化为过滤后的PDFG的节点集,以及过滤后的PDFG的边集加上两条新边:一条连接开始事件和DFG的前源,另一条连接DFG的前接收器和结束事件(第6行)。最后,创建一组空的网关,将通过以下三个步骤进行填充:拆分发现(split discovery)、加入发现(join discovery)和ORs替换

拆分发现:

给定一个PDFG=(T, Ep) 和一个节点a

定义 后继节点集 successor定义 futurecover一个后继结点future集合中的元素为该后继节点与其他后继节点存在并发关系的活动。如果后继节点是一个活动,那个该后继节点的cover集合中的元素就是是活动本身;如果后继节点是一个网关,那么它的cover就是在遍历网关之后才遍历的一组任务。

  •  XOR-Split
1. 首先两两对比后继节点的 future 集合,查找 future 集合相同的后继节点,构成 X 集合。

当对比完之后,如果X集合中后继节点的数≥2时,为X集合中的后继节点添加XOR-split

  • AND-Split
1. 首先从所有的后继节点中查找 future cover 并集相同的后继节点,构成 A 集合
2. A 集合中后继节点数≥ 2 时,为 A 集合中的所有后继节点添加 AND-split

 加入发现:

共有单入口-单出口片段,single-entry single-exit (SESE) fragments

1.trivial fragment:由一条边组成

2.polygon:一系列片段 ( a polygon is a sequence of fragments

3.bound: 所有子片段共享两个公共节点的片段,

            一个是bound的入口,另一个是bound的出口;

4.rigid: 不属于上述类型的片段

ORs替换:

这里不做赘述。

3.工具插件

将Split Miner(以下简称SM)实现为一个独立的Java应用程序。该工具将MXML或XES格式的事件日志以及阈值作为输入,并输出一个BPMN过程模型。

参考链接为:http://apromore.org/platform/tools.

运行界面插件图为:

 

 

4.总结

Split Miner,它可以生成简单的流程模型,具有较低的复杂度和一致的高且平衡的适应度和精度,同时实现比最先进的方法更快的执行时间

Split Miner结合了一种新的方法来过滤由事件日志产生的直接跟随关系图(DFG),以及一种识别分割网关组合的方法,该组合能够准确地捕获DFG中相邻节点之间的并发性、冲突和因果关系。

SplitMiner也是一种自动进程发现方法,可以保证生成无死锁的并发进程模型,同时不限于生成块结构的进程模型

参考文献:Augusto A, Conforti R, Dumas M, et al. Split miner: automated discovery of accurate and simple business process models from event logs[J]. Knowledge and Information Systems, 2019, 59(2): 251-284.

下一讲将介绍最近将对已有的过程挖掘算法进行总结。

如需进行相关的了解或者交流,欢迎私信或者加入QQ群:

 

RapidMiner:一种能够快速、高效地挖掘企业数据价值的数据挖掘工具
AI天才研究院
07-10 1940
在本文中,我们介绍了如何使用RapidMiner进行数据挖掘。我们涵盖了数据预处理、模型构建和评估等步骤,并提供了一些代码示例,以便您更好地理解如何使用RapidMiner挖掘企业数据价值。RapidMiner是一种易于使用的数据挖掘工具,具有强大的功能和算法库。它可以帮助企业从各种数据源中提取有价值的信息,并帮助企业做出更好的商业决策。如果您正在寻找一种数据挖掘工具,RapidMiner是一个不错的选择。
过程挖掘算法4】Alpha Miner及其系列算法
qq_40420514的博客
04-23 4513
Alpha算法是最早应用于过程挖掘过程发现算法,在2002年被过程挖掘之父Wil van der Aalst提出,后续并被很多研究学者所完善,提出了一系列的扩展alpha算法,比如alpha+、Tsinghua-alpha、alpha++、alpha#、alpha$和alpha*。接下来,我们将详细地介绍这一系列算法。 1.背景介绍 在过去的十年(上世纪90年代)中,工作流管理的概念和技术已经应用于许多企业信息系统中。Staffware、IBM MQSeries、COSA等工作流管理系统为结构化业.
过程挖掘算法
03-20
过程挖掘算法
过程挖掘(Process Mining)6——流程发现(Process Discovery)(2)α算法
hyhy12580的博客
01-24 2259
α算法是比较古老、原始和简单的流程发现算法,能够处理发现并发(concurrency)的能力,但在实践中不适用,因为存在一些问题(处理噪声、不频繁/不完整行为、复杂路由结构等)。这节介绍α算法,可以理解流程发现的内涵,并引出流程发现的挑战 一、α算法 1、基于日志的顺序关系 先引入基于日志的活动顺序关系。 定义1(基于日志的顺序关系,Log-based ordering relations)令是定义在活动集上的一个事件日志,即,令,那么 当且仅当存在一个行迹,有。 当且仅当且。 当且仅当且.
过程挖掘(Process Mining Manifesto):从日志中挖掘知识
runfeel
02-26 2424
近年来,事件日志数据越来越多,也越来越容易获取。作为一个年轻的跨领域的交叉研究方向,过程挖掘发展迅速。什么是过程挖掘过程挖掘算法如何在各类学术和商业系统中得以实现,以及过程挖掘面临哪些技术挑战。本文将进行深入探讨。 IEEE过程挖掘工作组 过程挖掘(process mining),指从现代信息系统中常见的事件日志中获取过程知识,发现、监测和改进实际系统行为模式(...
过程挖掘算法3】Heuristic Miner(启发式挖掘算法
qq_40420514的博客
04-15 4832
Heuristic Miner(启发式挖掘算法)是在2003年被A.J.M.M. Weijters 所提出来,并在2006年进行完善,是一种继α算法之后又一经典的过程发现算法,接下来,我们将详细地介绍这一算法。 1.背景介绍 现代的工作流管理系统是由显式的过程模型驱动的,也就是说,为了制定给定的工作流过程,需要一个完全指定的工作流设计。创建工作流设计是一个复杂的耗时的过程,通常,实际的工作流过程和管理层所感知的过程之间存在差异。因此,提出了一种可重新发现(rediscovering)工作流模型的技术.
过程挖掘算法5】遗传挖掘算法
qq_40420514的博客
04-29 1320
遗传挖掘算法有两个,第一个是在2007年由A. K. A. de Medeiros提出(Genetic Miner,我们称之为遗传挖掘算法1.0),是在Petri网上进行的,第二个是在2014年J. C. A. M. Buijs提出(我们称之为遗传挖掘算法2.0,Evolutionary Tree Miner),在Process Tree上提出的。接下来,我们将详细地介绍这两种算法,并说明这两种算法的不同之处。 1.背景介绍 已有的过程发现算法挖掘包含非平凡结构(non-trivi...
快速数据挖掘数据分析实战RapidMiner工具应用第3章 设计分析流程.rar
09-29
3. 数据建模:RapidMiner支持多种数据挖掘算法,包括分类(如决策树、随机森林)、回归、聚类、关联规则等。例如,可以使用"Build Model"操作符配合"Decision Tree"来构建决策树模型。 4. 模型训练与验证:使用...
快速数据挖掘数据分析实战RapidMiner工具应用第19章 电力窃漏电用户自动识别V1.rar
09-29
总结起来,使用RapidMiner进行电力窃漏电用户自动识别的过程包括数据预处理、特征工程、模型训练、评估以及部署。每个步骤都需要细心处理,以确保最终模型能够准确地识别异常用电行为,为电力公司提供有效的反窃电...
数据挖掘算法原理简介
数据挖掘是一种通过对大量数据进行分析,发现其中隐藏模式、关系、异常或其他有用信息的过程。在当今信息爆炸的时代,数据挖掘技术的应用变得越来越重要。 ## 1.1 什么是数据挖掘数据挖掘是一种从大量数据中...
过程挖掘 过程挖掘 过程挖掘
07-24
过程 挖掘 过程 挖掘 过程 挖掘 过程 挖掘 过程 挖掘 过程 挖掘 过程 挖掘 过程 挖掘 过程 挖掘 过程 挖掘 过程挖掘 过程挖掘 过程挖掘 过程挖掘
数据挖掘算法原理入门】:掌握算法核心,0基础也能开始!
[【数据挖掘算法原理入门】:掌握算法核心,0基础也能开始!](http://gbres.dfcfw.com/Files/picture/20240226/A990C2FB5674AEDD43133DC14A9D9FE2_w930h540.jpg) # 1. 数据挖掘概述 数据挖掘是从大量数据中提取或...
第六讲-流程挖掘(Process Mining)学习日志之α算法精讲
智潮先锋聚集地
04-17 1255
第六讲-流程挖掘(Process Mining)学习日志之α算法精讲
数据挖掘过程及机器学习十大算法
weixin_41605837的博客
12-02 818
1、数据探索 主要基于pandas库,利用常见的:.head()、.value_counts()、.describe()、isnull()、.unique()等函数以及通过matplotlib作图对数据进行理解和探索。 2、特征工程 主要是通过从日期中提取年月日、季节、weekday,对年龄进行分段,计算相关特征之间的差值,根据用户id进行分组,从而统计一些特征变量的次数、平均值、标准差等,以及通...
第一讲-流程挖掘(Process Mining)学习日志之概念简介
智潮先锋聚集地
04-18 1330
过程挖掘的目标就是:从事件数据中提取过程相关的信息。过程挖掘,即从事件日志中提取有价值的过程相关信息,是对现有业务过程管理(BPM)方法的补充。BPM是一个学科,它结合了信息技术和管理科学的知识,并将其应用于运作业务过程。近年来,由于BPM具有显著提高生产力和节约成本的潜力,得到了广泛重视。业务过程管理可以看成是WFM (Workflow Management,工作流管理) 的扩展。WFM主要关注于业务流程自动化,而BPM的范围更为广泛:从过程自动化、过程分析到过程管理和工作分配。
【流程发现算法概述】
qq_40420514的博客
05-14 2659
在我们相继推出了其中6种代表性的流程挖掘算法之后,我们将其简单地进行总结,并从整体上对流程挖掘算法进行概述,从而去了解流程发现的历史进程。接下来,我们将详细地介绍流程发现算法。 1.背景介绍 在《过程挖掘:业务过程的发现、合规和改进》一书中,曾介绍过程挖掘的目标是从事件数据中提取过程相关的信息,比如,通过观察企业系统中的事件数据,自动地发现过程模型。 过程挖掘指的是从事件日志中提取有价值的过程相关信息,是对现有业务过程管理(BPM)方法的补充。BPM是一个学科,它结合了信息技术和管理科学的知识,并.
数据挖掘流程总结及挖掘算法比较
Carolinedy的博客
08-07 8596
一、数据前期探索 数据质量分析: 是数据预处理的前提 主要任务:检查原始数据中是否存在脏数据 脏数据:不符合要求,以及不能直接进行相应分析的数据。包括:缺失值,异常值,不一致的值,重复数据,含有特殊符号的数据。 1、缺失值处理方式:删除存在缺失值的记录; 对可能值进行插补; 不处理。 2、异常值(离群点)处理方式:    简单统计量分析(判断变量取值是否超出范围);     ...
[过程挖掘 Process Mining]过程发现和简化(Process discovery and simplification)(二)
taoist1997的博客
04-19 1244
[过程挖掘 Process Mining] 实际生活中的例子(Real-life Process Mining Session) 文章目录[过程挖掘 Process Mining] 实际生活中的例子(Real-life Process Mining Session)第一章:1.1 安装软件1.2 Process discovery and simplification 过程发现和简化1.3 Statistics, Cases and Variants 统计、案例和变体1.4 Bottlen
第九讲-流程挖掘(Process Mining)学习日志之启发式挖掘
最新发布
智潮先锋聚集地
04-25 2141
介绍流程挖掘种的启发式挖掘算法
写文章

热门文章

  • 【过程挖掘算法3】Heuristic Miner(启发式挖掘算法) 4831
  • 【过程挖掘算法4】Alpha Miner及其系列算法 4512
  • 【几种常见的流程模型介绍】 4230
  • 流程挖掘工具-ProM的安装与使用教程 3410
  • 【Pm4py第一讲】关于ProcessMining 3063

分类专栏

  • pm4py 1篇
  • Python 8篇
  • 流程挖掘知识 35篇
  • C语言初步学习 2篇
  • C++基础学习
  • Java学习笔记 9篇

最新评论

  • 流程挖掘工具-ProM的安装与使用教程

    m0_64715429: 大哥,还有什么办法装ivy吗?说那个网址不行,在marketplace里装 也说不行

  • 【Pm4py第七讲】关于visualization

    Nniha: 能可视化declare模型吗

  • 流程挖掘工具-ProM的安装与使用教程

    北冥有鱼zsp: 这个没试过,最好用低版本的

  • 流程挖掘工具-ProM的安装与使用教程

    ╰つ ℡。 Sebtimental丶释怀: eclispe2023可以正常使用吗

  • 【过程挖掘算法6】Split Miner

    悲惨小柱: Split Miner的缺点是啥呢,有什么不足之处吗

最新文章

  • 【Pm4py第八讲】关于Statistics
  • 【Pm4py第七讲】关于visualization
  • 【Pm4py第六讲】关于合规性检查
2023年16篇
2022年19篇
2018年12篇

目录

目录

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

北冥有鱼zsp

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或 充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家佛山玻璃钢鲸鱼雕塑室内商场美陈有哪些常见玻璃钢花盆价格南宁环保玻璃钢雕塑仿古铜玻璃钢动物雕塑价格太原锦州玻璃钢卡通雕塑玻璃钢景观雕塑制作工厂杭州道路护栏玻璃钢花盆超轻玻璃钢雕塑河南装饰商场美陈价格西安商场夏季美陈定制益阳商场美陈雕塑厂家玻璃钢动物牛雕塑供应商中山卡通美女玻璃钢雕塑四川玻璃钢造型雕塑公司太湖玻璃钢孔子雕塑新郑玻璃钢喷泉不锈钢雕塑厂家玻璃钢卡通雕塑货源充足许昌玻璃钢雕塑哪里有石岐玻璃钢雕塑山东节庆商场美陈怎么样烟台玻璃钢人物雕塑漯河玻璃钢人物铜雕塑厂家信阳校园不锈钢玻璃钢仿铜雕塑盐田商场美陈装饰来宾玻璃钢雕塑工作室宜昌玻璃钢雕塑摆件报价茂名玻璃钢雕塑制作厂家玻璃钢雕塑户外能保持多久福州景观玻璃钢雕塑生产厂家香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化