检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
FusionInsight LibrA过程中,建议按如下顺序选取分布列: 有主键可以使用主键作为分布列。 多个数据段联合做主键的场景,建议设置所有主键作为分布列。 在没有主键的场景下,如果没有选择分布列,DWS会默认第一列作为分布列,可能会有数据倾斜风险。 因此,在单表或整库导入到DWS/FusionInsight
个文件,默认为|。 fromJobConfig.useQuery 否 Boolean 该参数设置为“true”时,上传到OBS的对象使用的对象名,为去掉query参数后的字符。 该参数设置为“false”时,上传到OBS的对象使用的对象名,包含query参数。 fromJobConfig
特定分页数据,您可以修改如下参数设置分页,其中pageSize表示分页后的页面大小,pageNum表示页码。 图4 分页参数设置 自定义分页的脚本/MyBatis方式API是在创建API时将分页逻辑写到取数SQL中,因此不支持在调用时修改分页设置。 (可选)排序配置:默认情况下,
配置DLI云服务委托权限。 搜索并进入DLI云服务控制台。 在DLI控制台左侧导航栏中单击“全局配置 > 服务授权”。 在委托设置页面,“管理相关委托设置”中勾选“跨源场景”权限,并单击“更新委托权限”。 查看并了解更新委托的提示信息,单击“确定”。完成DLI委托权限的更新。 图2
CDM依次将Task提交给运行池运行。根据集群配置管理中的“最大抽取并发数”参数,超出规格的Task排队等待运行。 如何调整抽取并发数 集群最大抽取并发数的设置与CDM集群规格有关,并发数上限建议配置为vCPU核数*2,如表1所示。 表1 集群最大抽取并发数配置建议 规格名称 vCPUs/内存 集群并发数上限参考
10 查询发布包列表 用于查询发布包的列表信息。 100 10 查询指定发布包详情 用于查询指定的发布包详情信息。 100 10 设置作业标签 此设置作业标签。 100 10 查询告警通知记录 查询指定时间段内的告警通知记录。 100 10 发布任务包 目前支持发布包管理中相关包的发布,支持发布多个任务包。
SIMPLE:非安全模式选择Simple鉴权。 KERBEROS:安全模式选择Kerberos鉴权。 SIMPLE Hive版本 Hive的版本。根据服务端Hive版本设置。 HIVE_3_X 用户名 选择KERBEROS鉴权时,需要配置MRS Manager的用户名和密码。从HDFS导出目录时,如果需要创建
单击“下一步”,配置调度方式,如图11所示。 图11 调度配置 单次调度表示需要手动触发运行,周期性调度表示会按照配置定期触发作业运行。此处以当天配置为例,设置每15分钟触发运行一次对账作业为例的配置。 单击“提交”, 完成对账作业的创建。 执行对账作业并查看结果分析 在数据质量模块左侧导航栏中,选择“数据质量监控
件或者环境变量中密文存放,使用时解密,确保安全; // 本示例以ak和sk保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量SDK_AK和SDK_SK。 var ak = process.env.SDK_AK; var sk = process.env.SDK_SK;
先导入阶段表,如果设置为“true”,数据导入目的表之前会把数据先导入阶段表,如果成功导入阶段表,则再从阶段表导入到目的表,这样避免导入过程失败,在目的表遗留部分成功数据。 toJobConfig.extendCharLength 否 Boolean 扩大字符字段长度,如果设置为“tru
填写数据库名称,该数据库已创建好,建议不要使用默认数据库。 表2 高级参数 参数 是否必选 说明 节点状态轮询时间(秒) 是 设置轮询时间(1~60秒),每隔x秒查询一次节点是否执行完成。 节点执行的最长时间 是 设置节点执行的超时时间,如果节点配置了重试,在超时时间内未执行完成,该节点将会再次重试。 失败重试
ORACLE连接固定选择为ORACLE。 数据连接名称 是 数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理。 说明: 标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头,且长度不能超过100个字符。 适用组件
否 选择输出数据存储的路径。 表2 高级参数 参数 是否必选 说明 节点状态轮询时间(秒) 是 设置轮询时间(1~60秒),每隔x秒查询一次节点是否执行完成。 节点执行的最长时间 是 设置节点执行的超时时间,如果节点配置了重试,在超时时间内未执行完成,该节点将会再次重试。 失败重试
否 选择输出数据的存储路径。 表2 高级参数 参数 是否必选 说明 节点状态轮询时间(秒) 是 设置轮询时间(1~60秒),每隔x秒查询一次节点是否执行完成。 节点执行的最长时间 是 设置节点执行的超时时间,如果节点配置了重试,在超时时间内未执行完成,该节点将会再次重试。 失败重试
选择数据库名称,该数据库已创建好,建议不要使用默认数据库。 表2 高级参数 参数 是否必选 说明 节点状态轮询时间(秒) 是 设置轮询时间(1~60秒),每隔x秒查询一次节点是否执行完成。 节点执行的最长时间 是 设置节点执行的超时时间,如果节点配置了重试,在超时时间内未执行完成,该节点将会再次重试。 失败重试
配置SQLServer源端参数 支持从云端的数据库服务导出数据。 这些非云服务的数据库,既可以是用户在本地数据中心自建的数据库,也可以是用户在ECS上部署的,还可以是第三方云上的数据库服务。 表1 SQLServer作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 使用SQL语句
作业开发API 创建补数据实例 查询补数据实例 停止补数据实例 修改作业名称 查询发布包列表 查询指定发布包详情 设置作业标签 查询告警通知记录 发布任务包 撤销任务包 查询实例运行状态 查询任务完成情况 查询指定作业的实例列表 重跑作业实例 父主题: 数据开发API(V2)
cloudtable.com:2181 IAM统一身份认证 如果所需连接的CloudTable集群在创建时开启了“IAM统一身份认证”,该参数需设置为“是”,否则设置为“否”。 当选择IAM统一身份认证时,需要输入用户名、AK和SK。 否 用户名 登录CloudTable集群的用户名。 admin
DIS的通道名。 dis 是否持久运行 用户自定义是否永久运行。设置为长久运行的任务,如果DIS系统发生中断,任务也会失败结束。 是 DIS分区ID DIS分区ID,该参数支持输入多个分区ID,使用英文逗号(,)分隔。 0,1,2 偏移量参数 设置从DIS拉取数据时的初始偏移量: 最新:最大偏移量,即拉取最新的数据。
["\"01\""]];[['\'00\''],['\'01\'']] 子作业并发数 是 循环产生的子作业可以并发执行,您可设置并发数。 说明: 如果子作业中包含CDM Job节点,子作业并发数需要设置为1。 子作业实例名称后缀 否 For循环生成的子任务名称:For循环节点名称 + 下划线 + 后缀。