检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
作用编排:将数据处理和数据分析脚本编排成一个pipeline。DataArt会按照编排好的pipeline顺序执行各个节点。请参考步骤4:作业编排。 测试作业运行:测试作业运行。请参考步骤5:测试作业运行。 设置作业调度与监控:设置作业调度属性与监控规则。请参考步骤6:设置作业周期调度和相关操作。 环境准备
Hudi数据表管理操作规范 Hudi数据表Compaction规范 Hudi数据表Clean规范 Hudi数据表Archive规范 父主题: DLI Hudi开发规范
Hudi表模型设计规范 规则 Hudi表必须设置合理的主键。 Hudi表提供了数据更新和幂等写入能力,该能力要求Hudi表必须设置主键,主键设置不合理会导致数据重复。主键可以为单一主键也可以为复合主键,两种主键类型均要求主键不能有null值和空值,可以参考以下示例设置主键: SparkSQL: //
JSON函数使用SQL标准的ISO/IEC TR 19075-6中描述的JSON路径表达式。它们的语法受到ECMAScript的启发并采用了ECMAScript的许多特性,但既不是其子集,也不是其超集。 路径表达式有两种,一种是宽松模式,另一种是严格模式。当省略时,它默认为严格模
Boolean 是否设置异步维表。 lookup.cache.max-rows 否 -1 Long 维表配置,缓存的最大行数,超过该值时,缓存中最先添加的条目将被标记为过期。 默认表示不使用该配置。 lookup.cache.ttl 否 -1 Long 维表配置,缓存超时时间,超过
据,在RDS上查看运行结果。 步骤1:创建队列 登录DLI管理控制台,在左侧导航栏单击“资源管理 > 队列管理”,可进入队列管理页面。 在队列管理界面,单击界面右上角的“购买队列”。 在“购买队列”界面,填写具体的队列配置参数,具体参数填写参考如下。 计费模式:选择“包年/包月”或“按需计费”。本例选择“按需计费”。
间的安全访问。 数据源的安全组需放通DLI弹性资源池的网段。 - 设置密码 设置实例的登录密码。 - 管理员账号 root root 管理员密码 设置管理员密码。 - 参数模板 数据库参数模板就像是数据库引擎配置值的容器,参数模板中的参数可应用于一个或多个相同类型的数据库实例。
配置多版本过期数据回收站 功能描述 在DLI数据多版本功能开启后,过期的备份数据后续在执行insert overwrite或者truncate语句时会被系统直接清理。OBS并行文件系统可以通过配置回收站加速删除操作过期的备份数据。通过在表属性添加配置“dli.multi.version
SQL作业时,用户可以在设置中配置以下参数,切换bulk insert作为Insert语句的写入方式。 hoodie.sql.bulk.insert.enable = true hoodie.sql.insert.mode = non-strict 也可以设置hoodie.datasource
数据处理后写入到OBS,具体参数配置请根据实际环境修改。 环境准备 已安装和配置IntelliJ IDEA等开发工具以及安装JDK和Maven。 Maven工程的pom.xml文件配置请参考JAVA样例代码(Flink 1.12)中“pom文件配置”说明。 确保本地编译环境可以正常访问公网。
enterprise_project_id 否 String 企业项目ID。0”表示default,即默认的企业项目。关于如何设置企业项目请参考《企业管理用户指南》。 说明: 开通了企业管理服务的用户可设置该参数绑定指定的项目。 cidr_in_vpc 否 String 队列的虚拟私有云(VPC)的网段。例如:10
MRS集群请开启Kerberos认证。 在”组件管理 > Kafka > 服务配置”中查找配置项” security.protocol”,并设置为”SASL_SSL”。 登录MRS集群的Manager,下载用户凭据:”系统设置 > 用户管理 ,单击用户名后的”更多 > 下载认证凭据”。
nk版本”需要选择“1.15”,勾选“保存作业日志”并设置保存作业日志的OBS桶,方便后续查看作业日志。 认证用的username和password等硬编码到代码中或者明文存储都有很大的安全风险,建议使用DEW管理凭证。配置文件或者环境变量中密文存放,使用时解密,确保安全。Flink
false Boolean 是否设置异步维表。 lookup.cache.max-rows 否 -1 Long 维表配置,缓存的最大行数,超过该值时,最先添加的数据将被标记为过期。 默认表示不使用该配置。 lookup.cache.ttl 否 -1 Long 维表配置,缓存超时时间,超过该
nk版本”需要选择“1.15”,勾选“保存作业日志”并设置保存作业日志的OBS桶,方便后续查看作业日志。 认证用的username和password等硬编码到代码中或者明文存储都有很大的安全风险,建议使用DEW管理凭证。配置文件或者环境变量中密文存放,使用时解密,确保安全。Flink
中的/etc/hosts主机和ip映射信息添加到“主机信息”参数中。 当配置项支持参数化时,表示将记录中的一列或者多列作为该配置项的一部分。例如当配置项设置为car_${car_brand}时,如果一条记录的car_brand列值为BMW,则该配置项在该条记录下为car_BMW。
参考CDM上配置Hive连接。 图4 CDM配置MRS Hive数据源 单击“保存”完成MRS Hive数据源配置。 配置目的端DLI的数据源连接。 登录CDM控制台,选择“集群管理”,选择已创建的CDM集群,在操作列选择“作业管理”。 在作业管理界面,选择“连接管理”,单击“新
检查安全组网络(vpc)配置。 若按照步骤1重建跨源连接后还是报错“communication link failure”,则检查vpc配置。 经典型跨源: 入方向规则:检查本安全组内的入方向网段及端口是否已开放,若没有则添加。 检查网段及端口是否配置。 图2 检查网段及端口是否配置 如果不存在,则进行添加。
理? 设置DLI Flink作业的运行参数时,勾选“作业异常告警”参数,可在作业出现运行异常或者欠费情况时,将作业异常告警信息,以SMN的方式通知用户。 如果遇到提示SMN主题不存在您可以按照以下步骤进行排查: 确认SMN主题是否已经创建。 如果未创建,请在SMN服务管理控制台创建一个新的主题。
完全可以配置为基于时间的方式往桶中写入数据,比如可以设置每个小时的数据写入一个新桶中。即桶中将包含一个小时间隔内接收到的记录。 桶目录中的数据被拆分成多个Part文件。对于相应的接收数据的桶的Sink的每个Subtask,每个桶将至少包含一个Part文件。将根据配置的滚动策略来创建其他Part文件。对于Row