检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
sql作业,输入以下作业脚本,并提交运行。该作业模拟从kafka读取数据,并关联hive维表对数据进行打宽,并输出到print。 如下脚本中的加粗参数请根据实际环境修改。 CREATE CATALOG myhive WITH ( 'type' = 'hive' , 'default-database'
“已冻结”,您将无法对处于保留期的按需计费资源执行任何操作。 保留期到期后,若您仍未支付账户欠款,那么资源将被释放,数据无法恢复。 华为云根据客户等级定义了不同客户的宽限期和保留期时长。 关于充值的详细操作请参见账户充值。 按需计费模式和套餐包组合使用 DLI支持套餐包和按需计费模式结合使用。
云,子网,输入主机信息(可选)。 图4 创建增强型跨源连接 步骤4:购买弹性公网IP 在“弹性公网IP”界面,单击“购买弹性公网IP”。 根据界面提示配置参数。 参数填写说明请参考“购买弹性公网IP”。 步骤5:配置NAT网关 创建NAT网关。 登录控制台,在“服务列表”搜索“NAT网关”,进入网络控制台页面。
用户获得对应的权限,这一过程称为授权。授权后,用户就可以基于被授予的权限对云服务进行操作。 权限根据授权的精细程度,分为角色和策略。 角色:角色以服务为粒度,是IAM最初提供的一种根据用户的工作职能定义权限的粗粒度授权机制。 策略:策略以API接口为粒度进行权限拆分,授权更加精细
务权限不受控制的问题。升级后的DLI委托灵活性更强,更适合中大型企业场景化定制委托的需求。 配置DLI云服务的委托权限后会在IAM委托页面生成dli_management_agency的委托。请勿删除系统默认创建的dli_management_agency委托,否则会导致委托包含
nk作业列表可以了解Flink作业的基本信息。 表2 Flink作业基本信息 参数 参数说明 ID 所提交Flink作业的ID,由系统默认生成。 名称 所提交Flink作业的名称。 类型 所提交Flink作业的类型。包括: Flink SQL:Flink SQL作业 Flink Jar:Flink
选择要操作的弹性资源池,在“操作”列,单击“更多 > CU设置”。 在“CU设置”界面,“CU范围”参数中,左边为最小CU,右边为最大CU,根据情况分别设置。单击“确定”完成设置操作。 CU设置时怎样调大CU范围最小值? 弹性资源池CU范围的最小值小于等于弹性资源池的实际CUs,如
datasource.hive_sync.partition_fields", schema.fields(3).name) // 根据实际分区字段情况配置,非分区表请选择 org.apache.hudi.hive.NonPartitionedExtractor
提交作业终止时间,单位:秒。 dli-jdbc-1.x dli-jdbc-2.x directfetchthreshold 否 1000 请您根据业务情况判断返回结果数是否超过设置的阈值。 默认阈值1000。 dli-jdbc-1.x 创建Statement对象,设置相关参数并提交Spark
sql作业,输入以下作业脚本,并提交运行。该作业模拟从kafka读取数据,并关联hive维表对数据进行打宽,并输出到print。 如下脚本中的加粗参数请根据实际环境修改。 CREATE CATALOG myhive WITH ( 'type' = 'hive' , 'default-database'
用显示。 说明: 当前仅支持运行命令ANALYZE TABLE COMPUTE statistics noscan的配置单元存储表,和直接根据数据文件计算统计信息的基于文件的数据源表。 spark.sql.shuffle.partitions 200 为连接或聚合过滤数据时使用的默认分区数。
单击“确定”完成添加队列配置。 步骤2:创建虚拟私有云和安全组 创建虚拟私有云 登录VPC管理控制台,进入创建虚拟私有云页面。 在“创建虚拟私有云”页面,根据界面提示配置VPC和子网的参数。 具体参数说明请参考创建虚拟私有云。 其中配置IPv4网段时,请确保VPC的IPv4网段不要与下列网段重复。
将该IP配置在/etc/hosts文件中。 图3 在/etc/hosts文件中配置IP地址 步骤2:配置ODBC连接Kyuubi 安装ODBC驱动 根据数据库类型,需要在本地主机上安装相应的ODBC驱动。本例使用Hive数据库类型。 Cloudera Hive ODBC,推荐使用v2.5.12。
a中已创建的数据源名称。 Topics 选择MRS Kafka待迁移的Topic名称,支持单个或多个Topic。当前示例为:kafkatopic。 数据格式 根据实际情况选择当前消息格式。本示例选择为:CDC(DRS_JSON),以DRS_JSON格式解析源数据。 偏移量参数 从Kafka拉取数据时的初始偏移量。本示例当前选择为:最新。
如果当前MRS集群为普通集群则选择为SIMPLE,如果是MRS集群启用了Kerberos安全认证则选择为KERBEROS。 本示例选择为:KERBEROS。 Hive版本 根据当前创建MRS集群时候的Hive版本确定。当前Hive版本为3.1.0,则选择为:HIVE_3_X。 用户名 在3中创建的MRS Hive用户名。
TUMBLE函数指定每个元素到一个指定大小的窗口中。滚动窗口的大小固定且不重复。 例如:假设指定了一个 5 分钟的滚动窗口。Flink 将每 5 分钟生成一个新的窗口。 图1 滚动窗口示例图 语法描述 TUMBLE 函数通过时间属性字段为每行数据分配一个窗口。 在流计算模式,时间属性字段必须被指定为事件或处理时间属性。