开源流程引擎Camunda技术架构

Python09

开源流程引擎Camunda技术架构,第1张

Camunda是一个基于Java的框架,支持用于工作流和流程自动化的BPMN、用于案例管理的CMMN和用于业务决策管理的DMN。

本篇文章我们仅考虑BPMN流程引擎,先不涉及CMMN和DMN引擎。就流程引擎而言,Camunda是一个灵活的工作流框架,它的核心是一个在Java虚拟机内部运行的原生BPMN 2.0流程引擎,因此它可以嵌入到任何Java应用程序或运行时容器中。Camunda与Java EE 集成,并可以与Spring Framework和Spring Boot完美匹配。

Camunda BPMS到底包括哪些功能,我们拿官方的一张架构图进行解读分析。

1.从BPM应用维度看

Camunda分为流程设计和流程运行两个阶段,见图中最下方的蓝色大箭头,Model和Execute,按照这两个阶段,Camunda划分为两大部分功能,对应设计阶段的功能有 Modeler,对应运行阶段的功能有Engine、TaskList、Cockpit、Admin。

2.从BPM功能维度看

Camunda包括了流程设计器(Modeler)、流程引擎(Engine)、API接口(REST/Java API)、任务列表(TaskList)、流程管理控制台(Cockpit)、系统管理工具(Admin)。在Camunda商业产品中还包括了流程监控预警工具(Optimize)、流程协同设计工具(Cawemo)。这里重点先说一下Camunda流程设计器,支持两种模式,一种是富客户端的流程建模工具Camunda Modeler,需要在客户端安装;另一种是基于浏览器的流程设计器bpmn.io,这两款软件均开源。

3.从BPM角色维度看

Camunda分为业务分析师、流程开发工程师、最终用户、流程管理员、系统管理员这几个角色,每个角色对应BPMS不同的功能。业务分析师、流程开发工程师使用流程设计器(Modeler)进行流程建模,最终用户使用任务列表(TaskList)进行流程发起和审批,流程管理员使用流程管理控制台(Cockpit)进行流程管理,比如流程暂停恢复、流程异常干预等,系统管理员使用系统管理工具(Admin)进行系统管理,比如组织用户管理、权限管理等。

1.支持与Spring框架集成

Camunda支持与spring框架集成,把 camunda-engine-spring框架引入到项目的maven模块内,它可以与Spring 3、4或5版本一起使用,具体集成过程后面有文章单独介绍。

2.支持与spring boot集成

后面文章专题介绍

3.支持与CDI and Java EE 集成

CDI (Context and Dependency Injection)是 Java EE6的标准和依赖注入,Camunda通过camunda-engine-cdi模块集成可利用camunda引擎的配置和cdi的可扩展性。

4.支持与Runtime Container 集成

支持与tomcat、JBoss等常见的运行容器集成。

Camunda BPM是一个灵活的框架,支持嵌入式、分布式、集群等多种部署模式。

1.嵌入式部署

流程引擎以Jar包方式添加到应用程序中,通过这种方式,可以在应用程序生命周期中轻松启动和停止流程引擎。

2.基于web容器启动,多应用共享

流程引擎在运行时容器(Servlet容器、应用程序服务器等)中启动,流程引擎作为容器服务提供,可以由容器内部署的所有应用程序共享。这种方式在实际应用场景中不多见。

3.独立部署,多应用共享

在这种情况下,流程引擎独立部署,通过网络提供服务,网络上运行的不同应用程序可以通过远程通信通道与进程引擎交互,远程访问流程引擎的最简单方法是使用内置的REST服务接口。在企业级流程中心部署架构中,这是一种最常见的部署模式,在现在的微服务部署架构中,也可以采取这种方式。

4.集群部署

为了提供扩展或故障转移功能,流程引擎可以分布到集群中的不同节点,每个流程引擎实例都必须连接到共享数据库。Camunda BPM不提供现成的负载平衡功能,可以采用nginx等第三方负载均衡软件实现。

本文介绍了第三方库及其在Camunda中的使用。对于Camunda的每个组件,都列出了第三方库。对于每个库,都解释了该库是必需的依赖项还是可选的依赖项。必需的依赖是Camunda提供核心功能所依赖的库。在下面的列表中标记为(Required Dependency)。可选的依赖项是可以与Camunda集成的库。在下面的列表中标记为(可选依赖项)。

以下是Camunda7.15版本依赖得第三方类库:

1、Process Engine

流程引擎依赖于以下第三方类库:

MyBatis mapping framework (Required Dependency) for object-relational mapping.

Joda Time (Required Dependency) for parsing date formats.

Java Uuid Generator (JUG) (Optional Dependency) Id Generator. See the documentation on Id-Generators

SLF4J (Required Dependency) Logging Facade

此外,流程引擎还可以集成:

Apache Commons Email (Optional Dependency) for mail task support.

Spring Framework Spring-Beans (Optional Dependency) for configuration using camunda.cfg.xml.

Spring Framework Spring-Core (Optional Dependency) for configuration using camunda.cfg.xml.

Spring Framework Spring-ASM (Optional Dependency) for configuration using camunda.cfg.xml.

Groovy (Optional Dependency) for groovy script task support.

Jython (Optional Dependency) for Python script task support.

JRuby (Optional Dependency) for Ruby script task support.

Freemarker (Optional Dependency) for freemarker template engine support.

Apache Velocity (Optional Dependency) for apache velocity template engine support.

SAXON (Optional Dependency) for XSLT and XQuery template engine support.

2、REST API

REST API依赖于以下第三方库:

Jackson JAX-RS (Required Dependency) provider for JSON content type

Apache Commons FileUpload (Required Dependency)

此外,当使用Apache Tomcat时:

RESTEasy (Required Dependency)

3、Spring Support

Spring支持可以与以下第三方库集成:

Apache Commons DBCP (Optional Dependency)

Spring Framework Spring-Beans (Optional Dependency)

Spring Framework Spring-Core (Optional Dependency)

Spring Framework Spring-ASM (Optional Dependency)

Spring Framework Spring-Context (Optional Dependency)

Spring Framework Spring-JDBC (Optional Dependency)

Spring Framework Spring-ORM (Optional Dependency)

Spring Framework Spring-TX (Optional Dependency)

4、Camunda Spin

Camunda Spin依赖于以下第三方库:

Jackson Json (Required Dependency) for Json Dataformat Support

此外,Camunda Spin可以与以下库集成:

Jayway Json Path (Optional Dependency) for Json Path Support

5、Camunda Connect

Camunda Connect依赖于以下第三方库:

Apache Http Components (Required Dependency) for REST and SOAP support.

1、支持的Java开发环境

• Java版本: 8 / 9 / 10 / 11 / 12 / 13 / 14

• Springboot版本: 2.3.x.RELEASE

2、支持的Java运行环境

• Oracle JDK 8 / 9 / 10 / 11 / 12 / 13 / 14

• IBM JDK 8 (with J9 JVM)

• OpenJDK 8 / 9 / 10 / 11 / 12 / 13 / 14

3、支持的数据库软件

• MySQL 5.6 / 5.7

• MariaDB 10.0 / 10.2 / 10.3

• Oracle 11g / 12c / 18c / 19c

• IBM DB2 10.5 / 11.1

• PostgreSQL 9.4 / 9.6 / 10.4 / 10.7 / 11.1 / 11.2 / 12.2

• Microsoft SQL Server 2012/2014/2016/2017

• H2 1.4

4、支持的应用服务器

• Apache Tomcat 7.0 / 8.0 / 9.0

• JBoss EAP 6.4 / 7.0 / 7.1 / 7.2

• Wildfly Application Server 10.1+

• IBM WebSphere Application Server 8.5 / 9.0 企业版

• Oracle WebLogic Server 12c (12R2) 企业版

5、支持的浏览器

• Google Chrome

• Mozilla Firefox

• Microsoft Edge

6、流程设计器支持的操作系统

• Windows 7 / 10

• Mac OS X 10.11

• Ubuntu LTS

可以参考下面的路径去学习,祝你学有所成,公司最近在人工智能和自然语言处理的项目后端项目,我也是网上找了很多知识,最后给自己列了一个学习的目录,按照这个在复习并在总结,希望能帮到你:

计算机基本认知,环境搭建    python环境搭建

计算机基本认识,进制转换

python注释使用

python变量使用

python数据类型_Number

python数据类型    str字符串类型

容器类型数据list,tuple,str

容器类型数据set,dict

变量缓存机制

自动类型转换

Number强制类型转换  

python运算符的使用    容器类型数据强制类型转换

字典强转等长二级容器

运算符_算数_比较

运算符_赋值_成员

运算符_身份_逻辑

运算符_位运算_优先级  

python流程控制    代码块

流程控制if

多项巢状分支

循环结构while

循环判断经典题

字符串的相关操作  

python循环结构    

关键字continue_break_pass

for循环的遍历_range  

字符串,列表内置方法    

字符串函数

format字符串格式化

format特殊符号的使用

列表的操作

列表函数  

字典,集合内置方法+文件操作    

字典的相关函数

集合操作_函数

文件操作

文件加号模式  

函数,函数参数    文件相关函数 

函数

形参实参

默认形参_关键字形参

收集参数

命名关键字参数

全局/局部变量,闭包    return返回值

函数名的使用

局部变量_全局变量

函数的嵌套LEGB

关键字nonlocal

闭包函数  

递归,匿名函数    

locals和globals

闭包特点意义

递归含义

斐波那契_尾递归

匿名函数lambda  

迭代器,高阶函数    迭代器

高阶函数_map

高阶函数_reduce

高阶函数_sorted

高阶函数_filter  

推导式    列表推导式

推导式题

集合_字典推导式

生成器表达式

生成器函数  

内置方法,linux基本命令    内置函数

可滑动序列

面试题演练

linux安装

linux基本命令  

python模块    序列化模块

数学模块

随机模块

time模块  

python模块    os模块

os_shutil

os.path模块

计算文件夹大小

zipfile

tarfile  

导入模块包,oop面向对象认知    

import_from绝对导入

import_from相对导入(单入口)

oop面向对象

类的封装性

oop之封装,继承    类的相关操作

对象和类的删除操作

单继承

多继承

菱形继承

oop之多态,魔术方法    多态

魔术方法__new__

单态模式

析构方法__del__  

oop之魔术方法,异常处理    魔术方法__call__

魔术方法__str__repr__

魔术方法__bool_add_len__

了解异常

异常处理语法

主动抛出异常

装饰器  

装饰器

静态绑定方法

property 

正则表达式    单个字符匹配

多个字符匹配

匹配分组

命名分组

正则函数

正则计算器小程序

认识网络    bs_cs流程

传输数据流程

交换机和局域网的网络通讯

arp协议  

认识tcp/udp协议  

tcp基本语法

tcp循环发消息

udp基本语法

udp循环发消息

黏包  

基于tcp协议下的应用    socketserver并发

文件校验

服务器合法性校验

tcp登录

并发编程之进程    进程

join

守护进程

lock锁

Semaphore

生产者消费者模型    Event事件

进程队列Queue

生产者和消费者模型

JoinableQueue

Manager.py

并发编程之线程

.线程

用类定义线程

守护线程

lock保证线程数据安全

信号量_Semaphore

死锁,互斥锁,递归锁

线程池,进程池,协成的使用

事件Event

线程队列

进程池和线程池

回调函数

协程

协程的爬虫案例

mysql安装(linux+windows+xshell+navicat)  

掌握数据库mysql基本操作

mysql登录,服务启动

创建账户,用户授权

数据库,数据表,数据的增删改查

认识常用数据类型  

数据库的存储引擎和约束  

字段约束

约束的删减

存储引擎区别用法

数据表之间的关系  

查询数据表  

单表查询

多表联查

子查询

带EXISTS关键字的子查询

python操作mysql  

python连接mysql的事务处理

sql注入

python连接mysql增删改查

mysql数据恢复  

HTML/CSS    html文档介绍,html标签,body标签,head标签介绍,head标签中的meta标签和link标签和title标签介绍,body中的标签分类,基础标签,img、a、列表、表格、input、label、select等标签,作业讲解,form标签介绍和示例讲解,css介绍,引入,css选择器,背景设置,高度宽度,字体效果,边框、盒子模型、display属性、float属性等  

CSS    伪类选择器,文字装饰、a标签补充、定位、权重、小米商城导航栏讲解,原型头像示例讲解  

JS基础/BOM和DOM操作    小米商城作业,js介绍和js引入,js数据类型、流程控制、函数等操作,js中的JSON,BOM对象的弹框、location对象、定时器、直接查找选择器、间接查找选择器、值操作、类值操作、样式操作、button按钮补充、事件和绑定事件的两种方式,常用事件练习  

jQuery/Bootstrap    作业讲解,jquery介绍,引入、选择器、筛选器、值操作、文档操作、删除和清空标签、逻辑运算符、克隆、事件冒泡和事件委托、绑定事件的方式,作业讲解和模态对话框示例,input事件和页面载入事件补充、bootstrap介绍和引入、全局css样式、组件和常用插件

自定义web框架    作业讲解、web框架介绍、自定义web框架实现、动态页面、返回不同的html页面、函数版、多线程版、返回静态文件版,wsgiref版等web框架通过socket来实现,还有jinja2的简单使用  

django下载安装和URL路由系统    django介绍、MTV和MVC框架介绍、常用指令、目录结构、pycharm创建django项目、request的常用属性介绍、登录示例、url路由系统介绍、有名分组和无名分组,  

视图/模板    request对象的常用方法和属性、响应方法介绍和使用,CBV和FBV、CBV和FBV加装饰器,CBV源码讲解,模板渲染系统介绍,语法、简单示例、内置过滤器、for循环标签、if标签、with标签、自定义过滤器和标签、模板继承等  

Dajngo的ORM(1)    orm介绍,数据库同步指令使用和流程分析、配置连接mysql模型类中的属性介绍和常用参数说明,创建表和数据、增加的两种方法、删除、更新的两种方法、查询的13个api接口  

Dajngo的ORM(2)    单表图书管理系统展示和添加作业讲解、choices属性、auto_now_add和auto_now参数讲解、url别名和反向解析,基于双下划线的模糊查询,多表结构介绍,图书管理系统编辑和删除作业讲解、多表关系模型类创建和字段说明和参数介绍、多表数据的添加操作,多表的删除和修改、基于对象的跨表查询、双下划线跨表查询、查看原生sql语句的方法、聚合查询、分组查询、F查询、Q查询等  

Ajax与Django/ 中间件    ajax的介绍和简单示例,ajax登录示例、列表数据展示示例,ajax操作cookie的补充、中间件介绍、自定义中间件的方法、5个中间件方法的介绍和使用、基于中间件的session登录认证 

cookie、session以及用户认证组件    cookie介绍,cookie的流程解析,django操作cookie和其他参数介绍、session的说明、django的session操作等,多表图书管理系统作业讲解  

vue初识、es6基本语法、指令系统    let、const、v-if、v-for、v-html、v-text、v-model、v-show、生命周期钩子函数、  

组件化开发、组件传值、axios简单使用    组件化开发、组件传值、axios简单使用、vue-router使用、vue-cli安装  

项目初始化/首页    项目介绍、创建、初始化、element-ui的使用,单文件组件的使用和axios在单文件中的使用和配置、vue-cli的介绍和使用、路飞项目顶部导航栏页面效果搭建,轮播图组件的使用和调整、购物车页面搭建和课程详情页面搭建,vue-video-player视频播放插件  

drf组件    序列化器、drf简单示例、restful规范、反序列化的校验机制  

drf组件    apiview、request和response对象、modelserializer、序列化器保存数据、read_only和write_only的参数  

drf组件    viewset、drf路由功能、viewset视图基类的使用、视图子类、通用视图类genericapiview/排序、django-filter过滤器、频率组件、分页组件、接口文档、异常处理、xadmin的安装和使用、认证组件和权限组件  

git、消息队列    git企业中的使用模式,rabbimq消息队列的应用  

rpc通信,grpc组件    rpc的概念以及通信模式,最火的grpc组件使用 

轻量级Flask框架    Werkzeug服务介绍、Flask框架介绍  

路由系统、自定义路由扩展  

Cookie、Session、Http请求和响应  

蓝图、消息闪现、中间件  

Flask常用扩展、WTForms、使用SQLAchemy ORM  

Admin、Restful、websocket原理、magic string, payload len,masking key   

请求和上下文、多app应用、离线脚本、自定义扩展 

服务端项目搭建,项目配置(session、数据库、日志相关),项目初始化  

jsonrpc模块基本配置和使用,客户端展示首页及登录注册叶绵,APICloud页面控制管理

python进阶    并发、同步、异步、锁,线进程概念以及协程实现原理  

mysql进阶课    基础知识梳理、索引、执行计划  

mysql进阶课    存储引擎、日志管理、备份恢复、主从赋值、优化  

redis,mongodb    事务和发布订阅、RDB和AOF持久化、缓存击穿、缓存雪崩等原理介绍、 用户管理和复制集(RS)总结、sharding cluster 分片集群的搭建、分片使用和相关策略等  

算法与设计模式    链表、二叉树、常见算法、二分查找、插入排序、希尔排序、快排、堆排序、哈希查找  

算法与设计模式    设计模式,单例模式、工厂模式、策略模式、观察者模式  

算法与设计模式    leetcode经典算法解析  

知识体系差不多就这么多了,再就是项目部分,具体项目要看需求了,学会了钓鱼的方法,不怕钓不到鱼哦,无论在哪个行业做什么样的项目都没问题呢!

我自己也搜集了一些经典的资料,要是想要加我百度网盘:艾美电商,我发给你!

python爬虫框架概述

爬虫框架中比较好用的是 Scrapy 和PySpider。pyspider上手更简单,操作更加简便,因为它增加了 WEB 界面,写爬虫迅速,集成了phantomjs,可以用来抓取js渲染的页面。Scrapy自定义程度高,比 PySpider更底层一些,适合学习研究,需要学习的相关知识多,不过自己拿来研究分布式和多线程等等是非常合适的。

PySpider

PySpider是binux做的一个爬虫架构的开源化实现。主要的功能需求是:

抓取、更新调度多站点的特定的页面

需要对页面进行结构化信息提取

灵活可扩展,稳定可监控

pyspider的设计基础是:以python脚本驱动的抓取环模型爬虫

通过python脚本进行结构化信息的提取,follow链接调度抓取控制,实现最大的灵活性

通过web化的脚本编写、调试环境。web展现调度状态

抓取环模型成熟稳定,模块间相互独立,通过消息队列连接,从单进程到多机分布式灵活拓展

pyspider的架构主要分为 scheduler(调度器), fetcher(抓取器), processor(脚本执行):

各个组件间使用消息队列连接,除了scheduler是单点的,fetcher 和 processor 都是可以多实例分布式部署的。 scheduler 负责整体的调度控制

任务由 scheduler 发起调度,fetcher 抓取网页内容, processor 执行预先编写的python脚本,输出结果或产生新的提链任务(发往 scheduler),形成闭环。

每个脚本可以灵活使用各种python库对页面进行解析,使用框架API控制下一步抓取动作,通过设置回调控制解析动作。

Scrapy

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。

其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试

Scrapy主要包括了以下组件:

引擎(Scrapy): 用来处理整个系统的数据流处理, 触发事务(框架核心)

调度器(Scheduler): 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址

下载器(Downloader): 用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)

爬虫(Spiders): 爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面

项目管道(Pipeline): 负责处理爬虫从网页中抽取的实体,主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后,将被发送到项目管道,并经过几个特定的次序处理数据。

下载器中间件(Downloader Middlewares): 位于Scrapy引擎和下载器之间的框架,主要是处理Scrapy引擎与下载器之间的请求及响应。

爬虫中间件(Spider Middlewares): 介于Scrapy引擎和爬虫之间的框架,主要工作是处理蜘蛛的响应输入和请求输出。

调度中间件(Scheduler Middewares): 介于Scrapy引擎和调度之间的中间件,从Scrapy引擎发送到调度的请求和响应。

Scrapy运行流程大概如下:

首先,引擎从调度器中取出一个链接(URL)用于接下来的抓取

引擎把URL封装成一个请求(Request)传给下载器,下载器把资源下载下来,并封装成应答包(Response)

然后,爬虫解析Response

若是解析出实体(Item),则交给实体管道进行进一步的处理。

若是解析出的是链接(URL),则把URL交给Scheduler等待抓取