目录

数据中台开源项目3-DataSphere-Studio

【数据中台】开源项目(3)-DataSphere Studio

DataSphere Studio(简称 DSS)是微众银行自研的数据应用开发管理集成框架。

基于插拔式的集成框架设计,及计算中间件 ,可轻松接入上层各种数据应用系统,让数据开发变得简洁又易用。

在统一的 UI 下,DataSphere Studio 以工作流式的图形化拖拽开发体验,将满足从数据交换、脱敏清洗、分析挖掘、质量检测、可视化展现、定时调度到数据输出应用等,数据应用开发全流程场景需求。

DSS 通过插拔式的集成框架设计,让用户可以根据需要,简单快速替换 DSS 已集成的各种功能组件,或新增功能组件。

借助于 计算中间件的连接、复用与简化能力,DSS 天生便具备了金融级高并发、高可用、多租户隔离和资源管控等执行与调度能力。

核心特点

DSS 主要特点:

一、一站式、全流程的应用开发管理界面

DSS 集成度极高,目前已集成的系统有(DSS 对以上组件的版本兼容性,请访问: ):

1、数据开发IDE工具——

2、数据可视化工具—— (基于宜信 二次开发)

3、数据质量管理工具——

4、工作流调度工具——

5、数据交换工具——

6、数据Api服务——

7、流式应用开发管理工具——

8、一站式机器学习平台——

9、工作流任务调度平台——

10、数据模型中心——DataModelCenter(社区联合共建中)

DSS 对以上组件的版本兼容性,请访问: 。

DSS 插拔式的框架设计模式,允许用户快速替换DSS已集成的各个 Web 系统。如:将 Scriptis 替换成 Zeppelin,将 Schedulis 替换成 DolphinScheduler。

二、基于Linkis计算中间件,打造独有的AppConn设计理念

AppConn,是 DSS 可以简单快速集成各种上层 Web 系统的核心概念。

AppConn ——应用连接器,定义了一套统一的前后台接入协议,总共分为三级规范,可让外部数据应用系统快速简单地接入,成为 DSS 数据应用开发中的一环。

AppConn 的三级规范即:一级 SSO 规范,二级组织结构规范,三级开发流程规范;

DSS 通过串联多个 AppConn,编排成一条支持实时执行和定时调度的工作流,用户只需简单拖拽即可完成数据应用的全流程开发。

由于 AppConn 对接了 Linkis,外部数据应用系统因此具备了资源管控、并发限流、用户资源管理等能力,且允许上下文信息跨系统级共享,彻底告别应用孤岛。

三、Workspace级管理单元

以 Workspace 为管理单元,组织和管理各数据应用系统的业务应用,定义了一套跨数据应用系统的工作空间协同开发通用标准,并提供了用户角色管理能力。

四、已集成的数据应用组件

DSS 通过实现多个 AppConn,已集成了丰富多样的各种上层数据应用系统,基本可满足用户的数据开发需求。

如果有需要,也可以轻松集成新的数据应用系统,以替换或丰富 DSS 的数据应用开发流程。

应用工具描述DSS0.X 兼容版本(推荐 DSS0.9.1)DSS1.0 兼容版本(推荐 DSS1.1.0)
计算中间件 Apache Linkis,通过提供 REST/WebSocket/JDBC/SDK 等标准接口,上层应用可以方便地连接访问 MySQL/Spark/Hive/Presto/Flink 等底层引擎.推荐 Linkis0.11.0(已发布)>= Linkis1.1.1(已发布)
(DSS已内置的第三方应用工具)数据API服务。可快速将SQL脚本发布为一个 Restful 接口,对外提供 Rest 访问能力。不支持推荐 DSS1.1.0(已发布)
(DSS 已内置的第三方应用工具)支持在线写 SQL、Pyspark、HiveQL 等脚本,提交给 执行的数据分析 Web 工具。推荐 DSS0.9.1(已发布)推荐 DSS1.1.0(已发布)
基于 Azkaban 二次开发的工作流任务调度系统,具备高性能,高可用和多租户资源隔离等金融级特性。推荐 Schedulis0.6.1(已发布)>= Schedulis0.7.0(已发布)
EventCheck(DSS 已内置的第三方应用工具)提供跨业务、跨工程和跨工作流的信号通信能力。推荐 DSS0.9.1(已发布)推荐 DSS1.1.0(已发布)
SendEmail(DSS 已内置的第三方应用工具)提供数据发送能力,所有其他工作流节点的结果集,都可以通过邮件进行发送推荐 DSS0.9.1(已发布)推荐 DSS1.1.0(已发布)
数据质量校验工具,提供数据完整性、正确性等数据校验能力推荐 Qualitis0.8.0(已发布)>= Qualitis0.9.2(已发布)
流式应用开发管理工具。支持发布 Flink Jar 和 Flink SQL ,提供流式应用的开发调试和生产管理能力,如:启停、状态监控、checkpoint 等。不支持>= Streamis0.2.0(已发布)
一站式机器学习平台,集成多种开源机器学习框架。Prophecis 的 MLFlow 通过 AppConn 可以接入到 DSS 工作流中。不支持>= Prophecis 0.3.2(已发布)
支持对结构化及无结构化的异构数据源之间的数据传输的数据交换平台,即将发布的 Exchangis1.0,将与 DSS 工作流打通不支持= Exchangis1.0.0(已发布)
基于宜信开源项目 Davinci 二次开发的数据可视化 BI 工具,为用户在数据安全方面提供金融级数据可视化能力。推荐 Visualis0.5.0= Visualis1.0.0(已发布)
Apache DolphinScheduler,分布式易扩展的可视化工作流任务调度平台,支持一键将DSS工作流发布到 DolphinScheduler。不支持DolphinScheduler1.3.X(已发布)
UserGuide(DSS 将内置的第三方应用工具)包含帮助文档、新手指引、Dark模式换肤等。不支持>= DSS1.1.0(已发布)
DataModelCenter(DSS 将内置的第三方应用工具)主要提供数仓规划、数据模型开发和数据资产管理的能力。数仓规划包含主题域、数仓分层、修饰词等;数据模型开发包含指标、维度、度量、向导式建表等;数据资产打通 Apache Atlas,提供数据血缘能力。不支持规划在 DSS1.2.0(开发中)
UserManager(DSS 已内置的第三方应用工具)自动初始化一个 DSS 新用户所必须的所有用户环境,包含:创建 Linux 用户、各种用户路径、目录授权等。推荐 DSS0.9.1(已发布)规划中
支持将 DSS 工作流发布到 Apache Airflow 进行定时调度。PR 尚未合并不支持

Demo试用环境

由于 DataSphereStudio 支持执行脚本风险较高,WeDataSphere Demo 环境的隔离没有做完,考虑到大家都在咨询 Demo 环境,决定向社区先定向发放邀请码,接受企业和组织的试用申请。

DataSphereStudio Demo 环境用户注册页面:

DataSphereStudio Demo 环境登录页面: