普元数据开发平台 普元数据开发平台
产品介绍
安装部署
快速入门
操作指南
FAQ
  • 数据开发
  • 1. 创建项目及配置
  • 2. 数据开发及调试
  • 开发批处理作业
  • 开发流作业(实时作业)
  • 3. 提交运行

# 数据开发

本章节包含以下步骤:

  • 1. 创建项目及配置
  • 2. 数据开发及调试
    • 开发批处理作业
    • 开发流作业(实时作业)
  • 3. 提交运行

# 1. 创建项目及配置

  1. 点击上方菜单栏“数据开发”,在【数据开发】页面,点击创建项目。

    image-20240517175915880

  2. 在创建项目页面,输入必填项,数据层选择ODS、DWD层。

    本示例中创建的数据源分别属于ODS、DWD层,故该项目至少选择这两层

    租户选择之前创建的租户,则该项目后续配置的调度引擎、成员和数据源资源均来源于该租户,未在该租户的资源无法选择。

    image-20240517180059922

  3. 项目创建成功后,默认没有调度引擎及数据源,需要在【项目配置】中配置相关信息,点击项目配置操作。

  4. 在项目配置中包含:项目信息、项目成员管理、调度引擎配置、数据源配置、文件管理。

    • 项目成员管理,添加项目成员

    • 调度引擎管理,添加调度引擎

    • 数据源管理,添加数据源

  5. 重复上述步骤,创建生产项目。

    生产项目不需要配置数据源

# 2. 数据开发及调试

在【数据开发】页面中,点击开发项目的【项目开发】操作,选择ODS层,页面跳转到该项目ODS层的IDE开发页面。

image-20240514104653451

# 开发批处理作业

以下示例创建模型为 原表同步到目标表。目标表已创建,但无数据。

  1. 在IDE中依次点击【集成作业】->【数据集成】,点击【数据集成】右侧的...,选择【新建数据集成作业】。

    image-20240514104751363

  2. 在弹出的【新建数据集成作业】页面,输入作业名称、选择作业类型为离线转换,点击确定按钮。

    image-20240514104848119

  3. 页面显示离线转换作业的初始化界面如下图。作业为转换作业的算子,右上侧有【通用配置】、【版本】、【草稿】,右上方有【运行】、【停止】、【保存】、【提交】操作按钮。

    image-20240514104931223

  4. 在左侧算子中拖拽【关系型数据库输入】、【关系型数据库输出】算子

  5. 在已拖拽到画布中的【关系型数据库输入】中移动鼠标至图中位置,拖拽连线指向【关系型数据库输出】。

  6. 连线完成后的模型如图

  7. 编辑【关系型数据库输入】算子,选择数据源及获取SQL查询语句。

  8. 编辑sql语句,增加查询条件,条件使用变量传值;并勾选【替换SQL语句变量】。

  9. 编辑【关系型数据库输出】算子,选择数据源、库及表,并勾选【truncate表】、【指定数据库字段】。

  10. 点击【获取字段】

  11. 点击【列映射】

    同名字段可以自动映射,不同名字段可手动选择,点击添加到映射结果中。

  12. 点击【确定】按钮,保存模型

  13. 点击右侧【通用配置】,在命名参数中增加参数 date1,并点击确定保存。

  14. 点击右上方的【运行】按钮,在弹出的运行窗口中输入参数值,如2019-01-01。

  15. 点击确定按钮,批量作业可运行依次,调试查看是否运行成功。

    当作业运行状态如下图,则代表作业成功运行结束。

    查看目标库中数据成功入库。

# 开发流作业(实时作业)

  1. 在IDE中依次点击【集成作业】->【数据同步】,点击【数据同步】右侧的...,选择【新建数据同步作业】。

    ​ image-20240514105507704

  2. 在弹出的【新建数据同步作业】页面,输入作业名称,点击确定按钮。

    ​ image-20240514105618750

  3. 页面显示实时作业的初始化界面如下图。作业为实时作业的算子,右上侧有【通用配置】、【版本】、【草稿】,右上方有【运行】、【停止】、【保存】、【提交】操作按钮。

  4. 在左侧算子中拖拽【数据源-kafka】、【目标-关系型数据库】算子,并编辑算子信息如图。

    image-20231113161841954

  5. 保存模型,点击运行,查看运行结果

6. 当kafka中有数据时,流处理作业会将数据写入目标关系型数据库中。

image-20231113162426181

若要开发更多类型作业(通用模板、程序等),可参考 开发示例

# 3. 提交运行

  1. 分别将上述批处理作业和流处理作业提交

  2. 在【作业流】节点点击...,点击【新建作业流】,输入作业流名称并保存。 image-20240514110424507

    image-20240514110442557

  3. 在作业流画布中,依次拖拽【转换】【数据同步作业】算子,并选择之前提交的批处理作业和流处理作业。

    image-20240514110556819

  4. 编辑作业流的【通用配置】,输入全局参数date1,点击【确定】按钮保存通用配置。

    该全局参数是批处理作业中的命名参数的传参

  5. 提交作业流

  6. 返回【数据开发】,选择对应的项目,点击”作业调度“操作,跳转到该项目使用的引擎已提交的作业流页面。

    image-20231113170659326

  7. 点击上线操作,作业流状态变更为“上线”

  8. 点击运行按钮,可运行该作业流。

  9. 点击定时可配置定时运行策略,启用后生效。

← 数据准备 投产及运维 →