云服务器内容精选

  • 使用场景 当某参数被多个作业调用时,可将此参数提取出来作为默认配置项,无需每个作业都配置该参数。 表1 配置项列表 配置项 影响模块 主要用途 配置工作空间模式 作业调度 普通模式 业务日期模式 系统支持按照作业调度计划时间去运行,同时支持按照业务日期去运行。 配置周期调度 作业调度 当前作业所依赖的作业执行失败后,当前作业的处理策略。 依赖的作业停止时,当前作业实例处理策略。 配置多IF策略 作业调度 节点执行依赖多个IF条件的处理策略。 配置软硬锁策略 脚本/作业开发 作业或脚本的抢锁操作依赖于软硬锁处理策略。 脚本变量定义 脚本开发 脚本变量的格式定义。SQL脚本的变量格式有${}和${dlf.}两种。 配置数据导出策略 脚本/作业开发 对SQL执行结果框中的数据配置下载或转储的策略。 所有用户都可以 所有用户都不能 仅工作空间管理员可以 禁用作业节点名称同步变化 作业开发 DataArts Studio 作业中的节点关联脚本或者其他服务的作业时,节点名称不会同步变化。 是否使用简易变量集 作业开发 简易变量集提供了一系列自定义的变量,实现在任务调度时间内参数的动态替换。 忽略失败的通知策略 运维调度 对于运行状态为忽略失败的作业,支持发送的通知类型。 节点超时是否重试 作业运行 作业节点运行超时导致的失败也会重试。 实例超时是否忽略等待时间 作业运行 实例运行时超时计算将忽略等待时间。 MRS jar包参数拆分规则 作业开发 MRS MapReduce算子和MRS Spark算子jar包参数中字符串参数(使用""括起来的参数)拆分规则。 等待运行实例同步作业版本策略 运维调度 已生成的等待运行的作业实例,此时发布新的作业版本后,实例是否会使用最新的作业版本运行。 Hive SQL及Spark SQL执行方式 脚本/作业开发 SQL语句放置在OBS中:将OBS路径返回给MRS。 SQL语句放置在请求的消息体中:将脚本内容返回给MRS。 补数据优先级设置 运维调度-补数据 设置补数据作业的优先级。当系统资源不充足时,可以优先满足优先级较高的作业的计算资源,数字越大优先级越高,当前只支持对 DLI SQL算子设置优先级。 历史作业实例取消策略 运维调度 配置等待运行作业实例的超期天数。当作业实例等待运行的时间,超过了所配置的期限天数时,作业实例将取消执行。超期天数,最小需配置2天,即至少需要等待2天,才可取消未运行的作业实例。超期天数默认为60天,单位:天。 历史作业实例告警策略 运维调度 配置“通知管理”中通知告警能监控的天数范围。 通知管理中配置的告警通知能监控的作业实例天数范围,默认配置为7天,即对7天内满足触发条件的作业实例都能正常上报通知告警,但7天之前的作业实例不会再上报告警。 作业告警通知主题 通知配置 按责任人发送通知时所使用的主题。 作业算子失败重试默认策略 运维调度 设置作业算子失败重试默认策略。 作业每次重试失败即告警 运维调度 当作业配置失败告警的时候,该配置项会触发作业每次重试失败即告警,可作用于全部作业、实时作业和批作业。 若选择不支持,则作业达到最大失败重试次数时才触发失败告警。 作业运行自动传递脚本名称 作业开发(作业运行) 开关打开后,系统自动传参将生效:将对当前空间内作业运行时,将Hive SQL脚本set mapreduce.job.name=脚本名称,自动传递至MRS。 作业依赖规则 作业调度 作业能被其他空间作业依赖,需要该空间作业列表的查询权限。工作空间内的默认角色均有该权限,自定义角色需要在有数据开发下的作业查询权限。 脚本执行历史展示 脚本/作业开发 对脚本执行历史结果进行权限管控。 仅自己可见:脚本执行历史只显示本用户的执行历史。 所有用户可见:脚本执行历史显示所有用户的执行历史。 作业测试运行使用的身份 作业开发(作业测试运行) 配置作业测试运行使用的身份。 公共委托或 IAM 账号:使用配置的公共委托或公共IAM账号身份执行作业。 个人账号:使用点击测试作业用户的身份执行作业。 Spark SQL作业/脚本默认模板配置 Spark SQL脚本/作业开发 Spark SQL作业/脚本配置运行,是否允许用户设置任意参数。 Hive SQL作业/脚本默认模板配置 Hive SQL脚本/作业开发 Hive SQL作业/脚本配置运行,是否允许用户设置任意参数。 作业/脚本变更管理 作业/脚本的导入和导出 工作空间是否开启作业/脚本变更管理。 是:表示作业/脚本变化时记录变更事件,支持根据时间点增量导出和导入所有变化的作业/脚本。 否:表示作业/脚本变化时不记录变更事件,只支持选定作业/脚本的导出和导入。 Flink调试OBS桶 Flink SQL实时作业开发 在进行Flink SQL作业调试时,调试OBS桶必须选择并行桶。 展示层脱敏配置 脚本开发和作业开发 进行脚本和作业开发执行结果、表数据预览操作时,支持配置是否开启前端展示层脱敏。
  • 测试API 填写入参取值。 如果单个参数需要传多个值时,写法如下: 字符串:'a','b','c' 数值:1,2 字段:a,b,c 图6 填写入参取值 (可选)调整排序参数描述pre_order_by的值。 pre_order_by的默认值已由系统根据已配置的所有排序参数给出,自定义排序默认为升序。排序参数描述pre_order_by的值填写形式为“排序参数参数名:ASC”或“排序参数参数名:DESC”,其中ASC表示升序,DESC表示降序,多个排序参数描述以“英文分号”进行分隔。勾选“是否传值”后,测试结果将按照pre_order_by的值排序。 对于pre_order_by的值,您可以进行如下修改: 删掉某可选的排序参数,则此排序参数不再参与排序。 修改自定义排序方式的排序参数为升序或降序方式,则此排序参数按照修改后的排序方式排序。 pre_order_by的值,不支持进行如下修改,否则会修改不生效或导致调用报错。 删掉某必选的排序参数,则此排序参数依然会正常参与排序,删除不生效。 调整排序参数的前后顺序,则排序依然以SQL中的排序参数顺序为准。调整不生效。 修改升序或降序的排序参数为其他排序方式,则会调用失败,不允许修改。 图7 调整排序参数描述pre_order_by的值 (可选)查看分页参数值。 采用默认分页方式时,可以查看分页参数情况,其中pageSize表示分页后的页面大小,pageNum表示页码。默认按100的大小分页,返回第1页数据。 图8 查看分页参数值 完成API参数的配置并保存后,单击左下角的“开始测试”,可进入API测试环节。 填写参数值,单击“开始测试”,即可在线发送API请求,在右侧可以看到API请求详情及返回内容。 测试过程中,如果数据服务API查询及返回数据的总时长超过默认60秒,会报超时错误。 如果测试失败,请查看错误提示并做相应的修改重新测试。 完成API测试之后,单击“确定”,即成功生成了一个数据API。
  • 配置取数逻辑 本例中以脚本方式说明如何配置API取数逻辑。Mybatis方式与之相比差异在于参数解析形式和支持的语法差异,在使用流程上没有区别。 如果使用Mybatis方式生成API,则需要将本章节脚本中的参数解析格式由${parameter}修改为#{parameter}形式,另外Mybatis方式支持的标签语法可在界面中单击脚本编辑处的,查看弹出的Mybatis脚本编辑提示。 “取数方式”选择“脚本方式”或“MyBatis方式”: 选择数据源、数据连接、数据库等数据信息。 数据服务仅支持部分数据源,详情请参见DataArts Studio支持的数据源。您需提前在DataArts Studio管理中心中配置好数据源,按照脚本编辑提示要求输入SQL语句。 选择分页方式,推荐使用自定义分页方式。 默认分页是指在创建API时输入了SQL,数据服务会自动基于SQL外层包装分页逻辑。 例如输入的SQL脚本为: SELECT * FROM userinfo WHERE id=${userid} 数据服务在处理调试或者调用时,将自动在用户SQL外层包装分页逻辑,从而变成以下脚本: SELECT * FROM (SELECT * FROM userinfo WHERE id=${userid}) LIMIT {limitValue} OFFSET {offsetValue} 其中limitValue表示读取的数据条数,offsetValue表示跳过的数据条数(即偏移量),系统将默认赋值。 自定义分页是指在创建API时,数据服务将不对SQL进行处理,分页逻辑需要在写SQL时由用户自定义。值得注意的是,为避免API查询数据量过大导致集群异常,自定义分页方式下必须在写SQL时添加分页逻辑。 如果已知需要读取的数据条数limitValue和需要跳过的数据条数offsetValue,则分页逻辑可以写成以下脚本: SELECT * FROM userinfo WHERE id=${userid} LIMIT {limitValue} OFFSET {offsetValue} 而在实际使用中,更多的是根据分页后的页面大小pageSize和页码pageNum定义分页逻辑,脚本样式如下: SELECT * FROM userinfo WHERE id=${userid} LIMIT {pageSize} OFFSET {pageSize*(pageNum-1)} 不同的数据源具有不同的语法风格,分页脚本应按照数据源语法要求调整。例如: DLI数据源不支持“LIMIT {limitValue} OFFSET {offsetValue}”的写法,仅支持“LIMIT {limitValue}” 。 HETU数据源分页需要反转,不支持“LIMIT {limitValue} OFFSET {offsetValue}”的写法,仅支持“OFFSET {offsetValue} LIMIT {limitValue}”。 编写API查询SQL。 在脚本编辑页面,单击脚本编辑处的,按照脚本编辑提示开发SQL查询语句。单击可将入参添加为SQL语句的API请求参数。另外,专享版数据服务支持返回总条数,开启后可返回取值脚本执行结果数据的总条数。 例如,需要在用户表中根据用户ID查询用户信息时,取值脚本可写为如下脚本。其中,“id”为userinfo表中的字段,“userid”为API中定义的入参。 SELECT * FROM userinfo WHERE id=${userid} 如果分页方式为自定义分页,页面大小pageSize为10、页码pageNum为2时,按照LIMIT {pageSize} OFFSET {pageSize*(pageNum-1)}转换方法,脚本可写为: SELECT * FROM userinfo WHERE id=${userid} LIMIT 10 OFFSET 10 图2 编写API查询SQL 脚本编辑完成后,单击脚本编辑窗口下方的“测试SQL”,填写入参值,执行验证是否能返回预期结果。如果测试失败,可在“预览SQL”页签下查看实际运行的SQL语句是否符合预期,或者通过“日志”页签查看报错信息。 图3 测试SQL SELECT查询的字段即为API返回参数,支持通过AS返回别名。 WHERE条件中的参数为API请求参数,脚本方式下参数格式为${参数名},MyBatis方式下参数格式为#{参数名}。 对于DWS数据库的FLOAT4、FLOAT8类型参数,不支持比较数值是否相等。 专享版数据服务支持返回总条数,开启后可返回取值脚本执行结果数据的总条数。 如果单个参数需要传多个值时,写法如下: 字符串:'a','b','c' 数值:1,2 字段:a,b,c 添加排序参数。 在排序参数列表中,单击“新建”可设置排序字段。 字段名称对外不可见,是所选的数据表中的字段,是API调用时实际访问的内容。在API查询SQL语句已编写完成且测试通过的前提下,可在“字段名称”输入框中选择排序字段。 变量可自定义,用于与字段名称关联。在“变量”输入框中输入参数名称(一般填写为参数名称即可),系统会自动修改为变量形式。 是否可选决定了调用API时此排序参数是否必选,勾选则表示此参数可以不传,可以通过排序参数描述pre_order_by的值配置是否参与排序;不勾选则此参数必传,即使排序参数描述pre_order_by的值未配置此参数,依然会参与排序。 排序方式表示了当前参数允许使用的排序形式,分为升序、降序以及自定义。自定义排序参数默认为升序排序,可通过排序参数描述pre_order_by的值进行调整;而升序或降序的排序参数,不支持通过pre_order_by的值调整排序方式,如果pre_order_by的值与此处设置排序方式不符,则会导致配置调试或调用报错。 多个排序参数时,表示当第一个排序参数相等时,再逐一用后续排序参数去排序。与配置方式不同的是,参数的排序顺序与添加排序字段的先后无关,而是需要通过SQL脚本自定义,并且不支持通过排序参数描述pre_order_by的值进行调整。 注意,脚本/MyBatis API的排序字段必须要使用ORDER BY添加到SQL语句中,才能使该排序参数生效,单击可将排序参数添加到SQL语句。添加ORDER BY参数时,关联字段名即可,多个排序字段的先后顺序由脚本定义,不支持在脚本中通过ASC或DESC设置顺序或降序方式。SQL语句中未添加的排序参数即使在排序参数描述pre_order_by的值中定义,排序也不会生效。 例如,需要在用户表中根据用户ID查询用户信息,先后通过age和kk两个字段排序,页面大小pageSize为10、页码pageNum为2时,脚本样例如下。 SELECT * FROM userinfo WHERE id=${userid} order by ${age},${kk} LIMIT 10 OFFSET 10 图4 添加排序参数 脚本编辑完成后,单击脚本编辑窗口下方的“测试SQL”,填写入参值和排序参数描述pre_order_by的值,执行验证是否能返回预期结果。 pre_order_by的默认值已由系统根据已配置的所有排序参数给出,自定义排序默认为升序。排序参数描述pre_order_by的值填写形式为“排序参数参数名:ASC”或“排序参数参数名:DESC”,其中ASC表示升序,DESC表示降序,多个排序参数描述以“英文分号”进行分隔。勾选“是否传值”后,测试结果将按照pre_order_by的值排序。 对于pre_order_by的值,您可以进行如下修改: 删掉某可选的排序参数,则此排序参数不再参与排序。 修改自定义排序方式的排序参数为升序或降序方式,则此排序参数按照修改后的排序方式排序。 pre_order_by的值,不支持进行如下修改,否则会修改不生效或导致调用报错。 删掉某必选的排序参数,则此排序参数依然会正常参与排序,删除不生效。 调整排序参数的前后顺序,则排序依然以SQL中的排序参数顺序为准。调整不生效。 修改升序或降序的排序参数为其他排序方式,则会调用失败,不允许修改。 如果测试失败,可在“预览SQL”页签下查看实际运行的SQL语句是否符合预期,或者通过“日志”页签查看报错信息。 图5 测试SQL 单击“下一步”,进行API测试页面。
  • 支持的数据源 实时集成作业支持的数据源如表1所示。 表1 实时集成作业支持的数据源 数据源分类 源端数据源 对应的目的端数据源 相关文档 说明 关系型数据 MySQL Hadoop:MRS Hudi MySQL同步到MRS Hudi作业配置 MySQL数据库建议使用版本:5.6、5.7、8.x版本。 Hudi建议使用版本:0.11.0。 消息系统:DMS Kafka MySQL同步到Kafka作业配置 MySQL数据库建议使用版本:5.6、5.7、8.x版本。 Kafka集群建议使用版本:2.7、3.x版本。 数据仓库 :DWS MySQL同步到DWS作业配置 MySQL数据库建议使用版本:5.6、5.7、8.x版本。 DWS集群建议使用版本:8.1.3、8.2.0版本。 SQLServer Hadoop:MRS Hudi(公测中) 说明: 该链路目前需申请白名单后才能使用。如需使用该链路,请联系客服或技术支持人员。 SQLServer同步到MRS Hudi作业配置 SQLServer建议使用版本:企业版2016、2017、2019、2022版本,标准版2016 SP2及以上版本、2017、2019、2022版本。 Hudi建议使用版本:0.11.0。 Hadoop:MRS Hudi(公测中) 说明: 该链路目前需申请白名单后才能使用。如需使用该链路,请联系客服或技术支持人员。 SQLServer同步到MRS Hudi作业配置 SQLServer建议使用版本:企业版2016、2017、2019、2022版本,标准版2016 SP2及以上版本、2017、2019、2022版本。 Hudi建议使用版本:0.11.0。 PostgreSQL 数据仓库:DWS(公测中) 说明: 该链路目前需申请白名单后才能使用。如需使用该链路,请联系客服或技术支持人员。 PostgreSQL同步到DWS作业配置 PostgreSQL数据库建议使用版本:PostgreSQL 9.4、9.5、9.6、10、11、12、13、14版本。 DWS集群建议使用版本:8.1.3、8.2.0版本。 Hadoop:MRS Hudi(公测中) 说明: 该链路目前需申请白名单后才能使用。如需使用该链路,请联系客服或技术支持人员。 PostgreSQL同步到MRS Hudi作业配置 PostgreSQL建议使用版本:PostgreSQL 9.4、9.5、9.6、10、11、12、13、14版本。 Hudi建议使用版本:0.11.0。 Open Gauss( GaussDB ) 数据仓库:DWS(公测中) 说明: 该链路目前需申请白名单后才能使用。如需使用该链路,请联系客服或技术支持人员。 GaussDB集中式/分布式同步到DWS作业配置 GaussDB集中式/ 分布式数据库 建议使用版本:内核引擎版本505.1.0、505.1.0.SPC0100、505.2.0。 DWS建议使用版本:8.1.3、8.2.0版本。 Oracle 数据仓库:DWS(公测中) 说明: 该链路目前需申请白名单后才能使用。如需使用该链路,请联系客服或技术支持人员。 Oracle同步到DWS作业配置 Oracle数据库建议使用版本:10、11、12、19版本。 DWS集群建议使用版本:8.1.3、8.2.0版本。 DMS Kafka 说明: 该链路目前需申请白名单后才能使用。如需使用该链路,请联系客服或技术支持人员。 Oracle同步到DMS Kafka作业配置 Oracle数据库建议使用版本:10、11、12、19版本。 Kafka建议使用版本:2.7、3.x版本。 Hadoop:MRS Hudi(公测中) 说明: 该链路目前需申请白名单后才能使用。如需使用该链路,请联系客服或技术支持人员。 Oracle同步到MRS Hudi作业配置 Oracle数据库建议使用版本:10、11、12、19版本。 Hudi建议使用版本:0.11.0。 消息系统 DMS Kafka 对象存储:OBS DMS Kafka同步到OBS作业配置 Kafka集群建议使用版本:2.7、3.x版本。 Apache Kafka Hadoop:MRS Kafka Apache Kafka同步到MRS Kafka作业配置 Kafka集群建议使用版本:2.7、3.x版本。 父主题: 数据集成(实时作业)
  • 续期权限 对于即将到期的权限,如果有延长有效期的需要,申请者可以进行续期申请。申请审批通过后,有效期会延长至新的到期时间。 在DataArts Studio控制台首页,选择对应工作空间的“数据安全”模块,进入数据安全页面。 单击左侧导航树中的“权限审批”,在“权限审批”页面,单击“我的权限”进入我的权限页签。 在“我的权限页面”,查看我已申请到的权限。 图2 我的权限 在待续期权限的操作栏选择“续期”,或在选择待续期权限后选择列表上方的“批量续期”,在弹出的窗口中选择权限的有效期。选择权限有效期支持选择为固定时长(从申请之日开始计算),也可以自定义配置到期时间(到期时间精确为当天晚上24点)。 图3 权限续期 点击“确定”,完成续期申请。
  • 配置权限到期提醒 管理员可以配置权限到期提醒主题、通知时间等信息,已订阅的用户在权限过期前7天开始会收到权限到期通知信息。 在DataArts Studio控制台首页,选择对应工作空间的“数据安全”模块,进入数据安全页面。 单击左侧导航树中的"权限审批",在“权限审批”页面,单击“权限通知”进入权限通知页签。 在"权限通知"页面,配置权限到期提醒。 权限到期通知主题:选择 消息通知 服务( SMN )中的消息主题。 权限到期通知时间(每天几点通知):选择每日通知的整点时间。 权限到期通知外部接口:选择 数据加密 中消息通知类型的外部接口。选择后会将通知消息发送给外部接口所对接的第三方通知接口,关于外部接口的详情可参考外部接口(高级特性)。 权限到期通知空间账号管理角色:选择到期通知的工作空间角色。 图6 权限通知
  • 变更有效期 对于用户已申请到的权限,管理员可以进行审视,并调整不适宜的权限有效期,以便权限及时更新或回收。 在DataArts Studio控制台首页,选择对应工作空间的“数据安全”模块,进入数据安全页面。 单击左侧导航树中的"权限审批",在“权限审批”页面,单击“权限回收”进入权限回收页签。 在“权限回收”页签,查看当前空间下已审批通过的权限。 图4 权限回收 在待变更有效期权限的操作栏选择“变更有效期”,或在选择待变更有效期权限后选择列表上方的“批量变更有效期”,在弹出的窗口中选择权限的有效期。选择权限有效期支持选择为固定时长(从申请之日开始计算),也可以自定义配置到期时间(到期时间精确为当天晚上24点)。 图5 变更有效期 点击“确定”,完成权限有效期变更。
  • 约束与限制 仅DAYU Administrator、Tenant Administrator、数据安全管理员可以变更权限有效期、配置权限到期提醒、操作所有订阅提醒。非管理员用户只能操作自己的订阅信息,无法查看和操作其他用户订阅提醒信息。 权限到期提醒将在权限过期前7天开始提醒,该时间不支持修改。 有效期到期回收后,已失效权限会保留7天,用于及时审视续期,超期后清理。 配置权限到期提醒需要为dlg_agency委托配置SMN服务操作权限(SMN FullAccess)。 当到期提醒使用数据开发通知主题时,会由于在数据开发侧添加的订阅自带的订阅筛选策略,导致仅请求订阅还是不会收到通知。因此在使用数据开发通知主题的场景下,除了请求订阅外,还需要再进行关联订阅后才能收到权限到期提醒。 订阅列表中的订阅通过备注与用户关联,备注为用户名的订阅,视作相应用户的订阅。 订阅列表与主题绑定,切换主题后,需重新配置订阅提醒。 已配置的终端信息不支持编辑,如果手机号、邮箱等终端发生变化,需删除后重新添加并请求订阅。 用户组的权限到期提醒,如果用户的组信息发生过变化,需要刷新订阅策略,才可以及时接收到正确的组信息。 每天到期提醒会整合为一条消息通知。如果即将到期的权限过多,则优先展示最快到期的权限,最多提示100条或20w字节。 受限于并发控制以及SMN性能等因素,消息通知可能会有数分钟的通知时延。
  • Oracle数据库连接参数说明 连接Oracle数据库时,连接参数如表1所示。 作业运行中禁止修改密码或者更换用户。在作业运行过程中修改密码或者更换用户,密码不会立即生效且作业会运行失败。 表1 Oracle数据库连接参数 参数名 说明 取值样例 名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 oracle_link 数据库服务器 配置为要连接的数据库的IP地址或 域名 。 192.168.0.1 端口 配置为要连接的数据库的端口。 默认端口:1521 数据库连接类型 选择Oracle数据库连接类型: Service Name:通过SERVICE_NAME连接Oracle数据库。 SID:通过SID连接Oracle数据库。 SID 实例名称 配置Oracle实例ID,用于实例区分各个数据库。“数据库连接类型”选择“SID”时才有该参数。 dbname 数据库名称 配置为要连接的数据库名称。“数据库连接类型”选择“Service Name”时才有该参数。 dbname 用户名 待连接数据库的用户。该数据库用户需要有数据表的读写权限,以及对元数据的读取权限。 cdm 密码 用户密码。 - 使用Agent Agent功能待下线,无需配置。 - Agent Agent功能待下线,无需配置。 - Oracle版本 创建Oracle连接时才有该参数,根据您Oracle数据库的版本来选择。当出现“java.sql.SQLException: Protocol violation异常”时,可以尝试更换版本号。 高于12.1 引用符号 可选参数,连接引用表名或列名时的分隔符号,参考对应数据库的产品文档进行配置。 " 驱动版本 不同类型的关系数据库,需要适配不同的驱动,更多详情请参见如何获取驱动。 - 单次请求行数 可选参数,单击“显示高级属性”后显示。 指定每次请求获取的行数,根据数据源端和作业数据规模的大小配置该参数。如果配置过大或过小,可能影响作业的时长。 Oracle到DWS迁移时,可能出现目的端写太久导致迁移超时的情况。此时请减少Oracle源端“单次请求行数”参数值的设置。 1000 单次提交行数 可选参数,单击“显示高级属性”后显示。 指定单次批量提交的行数。 10000 连接属性 可选参数,单击“添加”可增加多个指定数据源的JDBC连接器的属性,参考对应数据库的JDBC连接器说明文档进行配置。 常见配置举例如下: socketTimeout:配置JDBC连接超时时间,单位为毫秒。 mysql.bool.type.transform:配置mysql读取时,是否将tinyint(1)解析成boolean类型,默认为true。 - 连接私密属性 可选参数,单击“显示高级属性”后显示。 自定义私密连接属性。 sk=09fUgD5WOF1L6f 父主题: 配置连接参数
  • 数据源简介 表2 数据源简介 数据源类型 简介 数据仓库服务(DWS) 华为云DWS是基于Shared-nothing分布式架构,具备MPP大规模并行处理引擎,兼容标准ANSI SQL 99和SQL 2003,同时兼容PostgreSQL/Oracle数据库生态,为各行业PB级海量大数据分析提供有竞争力的解决方案。 数据湖探索 (DLI) 华为云DLI是完全兼容Apache Spark和Apache Flink生态,实现批流一体的Serverless大数据计算分析服务。DLI支持多模引擎,企业仅需使用SQL或程序就可轻松完成异构数据源的批处理、流处理、内存计算、机器学习等,挖掘和探索数据价值。 MapReduce服务 (MRS HBase) HBase是一个开源的、面向列(Column-Oriented)、适合存储海量非结构化数据或半结构化数据的、具备高可靠性、高性能、可灵活扩展伸缩的、支持实时数据读写的分布式存储系统。 使用MRS HBase可实现海量数据存储,并实现毫秒级数据查询。选择MRS HBase可以实现物流数据毫秒级实时入库更新,并支持百万级时序数据查询分析。 MapReduce服务(MRS Hive) Hive是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言,称为HiveQL,它允许熟悉SQL的用户查询数据。 使用MRS Hive可实现TB/PB级的数据分析,快速将线下Hadoop大数据平台(CDH、HDP等)迁移上云,业务迁移 “0”中断,业务代码 “0”改动。 MapReduce服务(MRS Kafka) 华为云MapReduce服务可提供专属MRS Kafka集群。Kafka是一个分布式的、分区的、多副本的消息发布-订阅系统,它提供了类似于JMS的特性,但在设计上完全不同,它具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性,适用于离线和在线的消息消费,如常规的消息收集、网站活性跟踪、聚合统计系统运营数据(监控数据)、日志收集等大量数据的互联网服务的数据收集场景。 MapReduce服务(MRS Spark) Spark是一个开源的并行数据处理框架,能够帮助用户简单的开发快速、统一的大数据应用,对数据进行协处理、流式处理、交互式分析等等。 Spark提供了一个快速的计算、写入以及交互式查询的框架。相比于Hadoop,Spark拥有明显的性能优势。Spark提供类似SQL的Spark SQL语言操作结构化数据。 MapReduce服务(MRS Clickhouse) ClickHouse是一款开源的面向联机分析处理的列式数据库,其独立于Hadoop大数据体系,最核心的特点是极致压缩率和极速查询性能。同时,ClickHouse支持SQL查询,且查询性能好,特别是基于大宽表的聚合分析查询性能非常优异,比其他分析型数据库速度快一个数量级。 当前ClickHouse被广泛的应用于互联网广告、App和Web流量、电信、金融、物联网等众多领域,非常适用于商业智能化应用场景。 MapReduce服务(MRS Impala) Impala直接对存储在HDFS、HBase或 对象存储服务 (OBS)中的Hadoop数据提供快速、交互式SQL查询。除了使用相同的统一存储平台之外,Impala还使用与Apache Hive相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue中的Impala查询UI)。这为实时或面向批处理的查询提供了一个熟悉且统一的平台。作为查询大数据的工具的补充,Impala不会替代基于MapReduce构建的批处理框架,例如Hive。基于MapReduce构建的Hive和其他框架最适合长时间运行的批处理作业。 MapReduce服务(MRS Ranger) Ranger提供一个集中式安全管理框架,提供统一授权和统一审计能力。它可以对整个Hadoop生态中如HDFS、Hive、HBase、Kafka、Storm等进行细粒度的数据访问控制。用户可以利用Ranger提供的前端WebUI控制台通过配置相关策略来控制用户对这些组件的访问权限 。 MapReduce服务(MRS Hudi) Hudi是一种 数据湖 的存储格式,在Hadoop文件系统之上提供了更新数据和删除数据的能力以及消费变化数据的能力。支持多种计算引擎,提供IUD接口,在HDFS的数据集上提供了插入更新和增量拉取的流原语。 Hudi的元数据存放在Hive中,操作通过Spark进行。 MapReduce服务(MRS Presto) Presto是一个开源的用户交互式分析查询的SQL查询引擎,用于针对各种大小的数据源进行交互式分析查询。其主要应用于海量结构化数据/半结构化数据分析、海量多维数据聚合/报表、ETL、Ad-Hoc查询等场景。 Presto允许查询的数据源包括Hadoop分布式文件系统(HDFS),Hive,HBase,Cassandra,关系数据库甚至专有数据存储。一个Presto查询可以组合不同数据源,执行跨数据源的数据分析。 MapReduce服务(MRS Doris) Doris是一个高性能、实时的分析型数据库,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。因此,Apache Doris能够较好的满足报表分析、即时查询、统一数仓构建、数据湖联邦查询加速等使用场景。 云数据库 RDS 华为云RDS是一种基于 云计算平台 的即开即用、稳定可靠、弹性伸缩、便捷管理的在线关系型数据库服务。 MySQL MySQL是目前最受欢迎的开源数据库之一,其性能卓越,架构成熟稳定,支持流行应用程序,适用于多领域多行业,支持各种WEB应用,成本低,中小企业首选。 ORACLE ORACLE数据库系统是以分布式数据库为核心的一组软件产品,是目前最流行的客户/服务器(CLIENT/SERVER)或B/S体系结构的数据库之一。 ORACLE数据库是目前世界上使用最为广泛的数据库管理系统,作为一个通用的数据库系统,它具有完整的数据管理功能;作为一个关系数据库,它是一个完备关系的产品;作为分布式数据库它实现了分布式处理功能。 实时数据接入 DIS 使用实时数据接入通道,可实现跨空间作业调度。若使用数据通道连接,可以向其他账号的DIS通道发送消息;若不使用,仅能给本账号下所有region的通道发送消息。 Rest Client 通过Rest Client执行一个RESTful请求。目前支持IAM Token、用户名密码两种认证鉴权方式的RESTful请求。 主机连接 通过主机连接,用户可以在DataArts Studio数据开发中连接到指定的主机,通过脚本开发和作业开发在主机上执行Shell或Python脚本。主机连接保存连接某个主机的连接信息,当主机的连接信息有变化时,只需在主机连接管理中编辑修改,而不需要到具体的脚本或作业中逐一修改。
  • 指标配置 在数据架构控制台,单击左侧导航树中的“配置中心”,然后再选择“指标配置”页签。 管理业务指标 新建指标 单击业务指标自定义项旁的新建按钮,或在已有指标的情况下,单击操作列的图标新增指标。完成后配置如下参数,然后单击“保存”。 图9 新建指标 表3 新建指标参数说明 参数名称 说明 选项名称 自定义指标名称。不超过100字符。 选项名称(英文) 自定义指标英文名称。不超过100字符。 可选值 设置自定义指标在创建业务指标时的可选值。 是否必填 设置自定义指标在创建业务指标时是否为必填项 描述 自定义指标的描述。不超过200字符。 调整指标排序 在有多个指标的情况下,可以通过操作列调整指标的排序。单击图标可进行指标的上移或者下移,双击图标可以输入序号将当前行移动到指定位置。 图10 调整指标排序 图11 移动到指定位置 删除指标 如果需要删除自定义指标,单击操作列的图标就可删除该指标。 图12 删除指标 完成自定义指标的设置后,在新建业务指标界面和完成发布的业务指标的基本信息界面,会显示已保存的自定义指标。 图13 新建业务指标 图14 基本信息界面
  • 字段类型 当您执行新建表、逆向数据库或模型转换等操作时,如果系统默认的数据类型或不同数据源之间的数据类型映射关系无法满足需求,您可以增加、删除或修改数据类型。系统默认的数据类型不支持删除。 在数据架构控制台,单击左侧导航树中的“配置中心”,进入相应页面后再单击“字段类型”页签。 在“字段类型”页面,您可以查看数据类型及不同数据源之间的数据类型映射关系,其中“创建人”为SYSTEM的类型为系统默认的字段类型。 类型分组说明如下: DEFAULT:通用数据类型,未指定数据源类型时建表所用的字段类型。例如,新建逻辑模型的表时,就是使用DEFAULT分组中的数据类型。 DLI:DLI连接类型的表的数据类型。 DWS:DWS连接类型的表的数据类型。 MRS_HIVE:MRS_HIVE连接类型的表的数据类型。 MRS_SPARK:MRS_SPARK连接类型Hudi表的数据类型。 POSTGRESQL:POSTGRESQL连接类型的表的数据类型。 CLICKHOUSE:CLICKHOUSE连接类型的表的数据类型。 MYSQL:MYSQL连接类型的表的数据类型。 ORACLE:ORACLE连接类型的表的数据类型。 DORIS:DORIS连接类型的表的数据类型。 图5 字段类型 管理字段类型。 新建类型 如果要增加数据类型,单击“新建”按钮。在弹出对话框中,配置如下参数,然后单击“确定”。 图6 新建类型 表1 基本配置 参数名称 说明 类型分组 选择新建类型所属的类型分组。 名称 数据类型的名称。只能包含中文、英文字母、数字、左右括号、空格和下划线,且以中文或英文字母开头。 编码 数据类型的编码,必须为数仓支持的类型。只能包含大写字母,下划线,数字,且以大写字母或下划线开头。 所属域 选择新建类型所属的域。 是否有拓展 对于某些数据类型,需要设定数据的长度范围时,可以打开“是否有拓展”开关,并配置对应的拓展。 例如高精度数据类型DECIMAL(p,s),需要分别指定小数的最大位数(p)和小数位的数量(s),则数据类型DECIMAL的默认拓展可填写为“(10,2)”,指的是小数点左侧的位数为2,小数点右侧的最大位数为10-2=8;又如数据类型VACHAR也需要指定位数,当默认拓展填写为“10”,指的是最大长度为10字符。 数仓对应类型 选择新建类型所映射连接的数据类型。 DEFAULT 选择新建类型所映射的DEFAULT连接的数据类型。 CLICKHOUSE 选择新建类型所映射的CLICKHOUSE连接的数据类型。 DLI 选择新建类型所映射的DLI连接的数据类型。 DWS 选择新建类型所映射的DWS连接的数据类型。 MRS_HIVE 选择新建类型所映射的MRS_HIVE连接的数据类型。 MRS_SPARK 选择新建类型所映射的MRS_SPARK连接的数据类型。 MYSQL 选择新建类型所映射的MYSQL连接的数据类型。 ORACLE 选择新建类型所映射的ORACLE连接的数据类型。 POSTGRESQL 选择新建类型所映射的POSTGRESQL连接的数据类型。 DORIS 选择新建类型所映射的DORIS连接的数据类型。 编辑类型 在字段类型列表中,找到需要编辑的字段类型,然后单击按钮进行编辑,参数说明请参见表1。 删除类型 仅支持对于用户新建的数据类型进行删除操作。“创建人”为SYSTEM的类型为系统默认的字段类型,不支持删除操作。 在字段类型列表中,找到需要删除的字段类型,单击按钮,然后在弹出对话框中单击“确定”完成删除。 重置 单击“字段类型”页面底部的“重置”按钮,可恢复系统默认配置。
  • DDL模板管理 在DataArts Studio数据架构中,支持修改各种类型(例如DLI、POSTGRESQL、DWS、Hive、SPARK、DORIS)的表或DLI视图的DDL模板。如果您需要将已创建的某一类型的表生成其他数据源的DDL语句,您就可以根据目标数据源的DDL语法,修改该类型的表的DDL模板。 在数据架构控制台,单击左侧导航树中的“配置中心”,进入相应页面后再单击“DDL模板管理”。 在“DDL模板管理”页面,您可以配置各种类型的表或DLI视图的DDL模板,您可以参考该页面中的“填写说明”修改DDL模板,修改完成后单击“确定”。如果单击“重置”可恢复默认设置。 如图7所示,说明如下: 新建:可查看或编辑新建表或DLI视图的DDL模板。 更新:可查看或编辑更新表或DLI视图的DDL模板。 删除:可查看或编辑删除表或DLI视图的DDL模板。 衍生指标:可以查看或编辑衍生指标的SQL模板。 复合指标:可以查看或编辑复合指标的SQL模板。 汇总表:可以查看或编辑汇总表的SQL模板。 “参考数据”区域:显示了一个表详情的示例,示例中的变量定义了表的详细信息。 “模板代码编辑”区域:可以编辑DDL模板。如果您需要将所选类型的表,生成其他类型的数据库的DDL语句,您可以根据目标数据源的DDL语法,修改DDL模板。 “预览结果”区域:编辑DDL模板后,可以预览按模板生成的DDL语句。 图7 DDL模板管理
  • 编码规则 在数据架构控制台,单击左侧导航树中的“配置中心”,然后再选择“编码规则”页签。 管理编码规则。 添加编码规则 如果需要自定义编码规则,在“编码规则”列表上方,单击“添加”,在弹出对话框中,配置如下参数,然后单击“确定”。 图8 添加编码规则 表2 添加编码规则说明 参数名称 说明 类型 选择编码规则的类型,当前支持如下六种: 业务指标,逻辑实体,逻辑属性, 数据标准、码表、业务对象。 生效范围 生效范围默认是全局。可以选择 主题、流程、码表、数据标准下一级路径。 系统规则 是否为系统规则。自定义的编码规则系统预置为否,不能修改。 编码规则 采用前缀+数字码的方式,不能修改。 前缀 可以是“英文字符”+“数字”的方式,但不能以数字结尾。支持修改。 数字码 支持顺序码和随机码两种方式。 起始码 数字码范围的起始值。 结束码 数字码范围的终止值。 编码示例 根据前缀动态修改后,可以更新展示。 删除编码规则 如果需要删除自定义编码规则,在“编码规则”列表勾选待删除的编码规则,单击列表上方的“删除”,在弹出对话框中,单击“是”即可删除。 系统预置的六个编码规则(逻辑实体、 数据标准、逻辑属性、业务指标、码表、业务对象),不可以删除。 编辑编码规则 如果需要修改自定义编码规则,单击“编码规则”列表中待修改编码规则的“编辑”,弹出“修改编码规则”对话框,修改完成后,单击“确定”。
  • 标准模板管理 标准模板管理用于自定义数据标准的默认选项。首次进入数据架构的数据标准页面,也会显示制定数据标准模板的页面。 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。 在数据架构控制台,单击左侧导航树中的“配置中心”,进入相应页面后再单击“标准模板管理”。 如下图所示,在“可选项”中勾选所需要的选项,单击“新建”按钮可以添加自定义项,完成后单击“确定”。 标准模板支持“是否可搜索”、“是否必填”、“可选值”。 保存模板后,在新建数据标准时需要设置此处模板中所选中选项的参数值。 首次进入数据架构的数据标准页面,可选项默认选取“数据长度”和“描述”,其他选项请按需求勾选。 添加自定义项时,支持同时添加中文与英文的自定义项。 图1 标准模板管理