检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在输入中把“表输入”拖拽到网格中,双击“表输入”,选择“自动识别”如图3所示。 图3 算子输入 在输出中把“ClickHouse输出”拖拽到网格中,双击“表输出”,选择“关联”或者手动编辑表格,与输入的表格对应,如图4所示。 图4 算子输出 设置数据保存信息并运行作业 单击“下一步”,进入“输出设
在输入中把“表输入”拖拽到网格中,双击“表输入”,选择“自动识别”如图3所示。 图3 算子输入 在输出中把“ClickHouse输出”拖拽到网格中,双击“表输出”,选择“关联”或者手动编辑表格,与输入的表格对应,如图4所示。 图4 算子输出 设置数据保存信息并运行作业 单击“下一步”,进入“输出设
“database”右侧填写或选择对应的数据库(如果是删除表则在“table”右侧填写或选择对应的表),在“column”右侧填写并选择“*”。 在“Allow Conditions”区域,单击“Select User”下选择框选择用户。 单击“Add Permissions”,勾选“Drop”。
查看MRS集群基本信息 集群创建完成后,可对集群进行监控和管理。选择“现有集群”,选中一集群并单击集群名,进入集群详情页面,查看集群的基本配置信息、网络信息和部署的节点信息等。 ECS集群和BMS集群在管理控制台操作基本一致,本文档主要以ECS集群描述为例,如有操作区别则分开描述。
注意:AQE特性与DPP(动态分区裁剪)特性同时开启时,SparkSQL任务执行中会优先执行DPP特性,从而使得AQE特性不生效。 false spark.sql.optimizer.dynamicPartitionPruning.enabled 动态分区裁剪功能的开关。 true spark
注意:AQE特性与DPP(动态分区裁剪)特性同时开启时,SparkSQL任务执行中会优先执行DPP特性,从而使得AQE特性不生效。 false spark.sql.optimizer.dynamicPartitionPruning.enabled 动态分区裁剪功能的开关。 true spark
into dsrTable select * from srcTabble 开启log列裁剪,提升mor表查询效率 mor表读取的时候涉及到Log和Parquet的合并,性能不是很理想。可以开启log列裁剪减少合并时IO读取开销 SparkSQL执行查询,先执行: set hoodie.enable
WebUI界面跳转到RegionServer WebUI 问题现象 MRS 1.9.3版本集群,在HBase WebUI界面单击“Region Servers”区域的“Base Status”页签中的“ServerName”列的任一RegionServer名称无法跳转到对应信息页。 操作步骤 以roo
int, name text, value text); 配置“Hive输入”算子,生成三个字段A、B和C: 设置了数据连接器后,单击“自动识别”,系统将自动读取数据库中的字段,可根据需要选择添加,然后根据业务场景手动进行完善或者修正即可,无需逐一手动添加。 此操作会覆盖表格内已有数据。
int, name text, value text); 配置“Spark输入”算子,生成三个字段A、B和C: 设置了数据连接器后,单击“自动识别”,系统将自动读取数据库中的字段,可根据需要选择添加,然后根据业务场景手动进行完善或者修正即可,无需逐一手动添加。 此操作会覆盖表格内已有数据。
int, name text, value text); 配置“Hive输入”算子,生成三个字段A、B和C: 设置了数据连接器后,单击“自动识别”,系统将自动读取数据库中的字段,可根据需要选择添加,然后根据业务场景手动进行完善或者修正即可,无需逐一手动添加。 此操作会覆盖表格内已有数据。
int, name text, value text); 配置“Spark输入”算子,生成三个字段A、B和C: 设置了数据连接器后,单击“自动识别”,系统将自动读取数据库中的字段,可根据需要选择添加,然后根据业务场景手动进行完善或者修正即可,无需逐一手动添加。 此操作会覆盖表格内已有数据。
申请足够的资源,再创建集群。 在“基础配置”区域,设置MRS集群基础信息。 计费模式:集群的计费模式,MRS提供“包年/包月”与“按需计费”两种计费模式。 区域:待创建资源所在的区域信息,不同区域的资源之间内网不互通,请选择靠近您的区域,可以降低网络延时、提高访问速度。 根据界面提示,配置MRS集群信息。
参考自定义购买MRS集群配置集群软件配置和硬件配置信息。 在“高级配置”区域勾选“现在配置”,单击引导操作栏的“添加”。 表1 参数描述 参数 示例 说明 名称 bootstrap_0 引导操作脚本的名称。 只能由数字、英文字符、空格、中划线和下划线组成,且不能以空格开头。 可输入的字符串长度为1~64个字符。
离线数据加载:通过Doris Catalog读取RDS-MySQL数据并写入Doris 应用场景 通过Doris创建Catalog成功读取RDS-MySQL数据并写入Doris,并按照Unique指定字段自动去重。 方案架构 离线数据可以从数据湖加载,也可以直接加载本地文件。从数
丢失等风险。 若节点隔离/退服失败,请登录Manager,单击在任务列表中查询并单击隔离/退服主机失败的任务名,根据界面提示信息处理。 在集群详情页选择“节点管理 > 退订节点”。 选择需要退订的节点并单击“确定”。 目前一次操作最多可以退订20个Core节点,退订后的Core节点数不能小于2。
int, name text, value text); 配置“HBase输入”算子,生成三个字段A、B和C: 设置了数据连接器后,可以单击“自动识别”,系统将自动读取数据库中的字段,可根据需要选择添加,然后根据业务场景手动进行完善或者修正即可,无需逐一手动添加。 此操作会覆盖表格内已有数据。
int, name text, value text); 配置“HBase输入”算子,生成三个字段A、B和C: 设置了数据连接器后,可以单击“自动识别”,系统将自动读取数据库中的字段,可根据需要选择添加,然后根据业务场景手动进行完善或者修正即可,无需逐一手动添加。 此操作会覆盖表格内已有数据。
图1 离线数据加载 操作流程 步骤1:创建MRS Hive集群并配置 步骤2:创建MRS Doris集群并配置 步骤3:创建Doris Catalog并将Hive外表数据写入Doris 步骤1:创建MRS Hive集群并配置 创建MRS集群,详细操作请参考快速购买MRS集群。其中:
对于可以压缩的数据,配置压缩算法可以有效减少磁盘的IO,从而达到提高性能的目的。 说明: 并非所有数据都可以进行有效压缩。例如一张图片的数据,因为图片一般已经是压缩后的数据,所以压缩效果有限。常用的压缩算法是SNAPPY,因为它有较好的Encoding/Decoding速度和可以接受的压缩率。