正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用Hue提交Oozie Shell作业 操作场景 该任务指导用户通过Hue界面提交Shell类型的Oozie作业。 操作步骤 创建工作流,请参考使用Hue创建工作流。 在工作流编辑页面,选择“Shell”按钮,将其拖到操作区中。 在弹出的“Shell”窗口中配置“Shell command”的值,例如“oozie_shell
在Oozie的“概览”界面,选择右上角“更多 > 重启服务”,重启Oozie服务。 创建工作流,请参考使用Hue创建工作流。 添加互信操作,请参考配置Oozie节点间用户互信。 在工作流编辑页面,选择“Ssh”按钮,将其拖到操作区中。 在弹出的“Ssh”窗口中配置以下参数并单击“添加”。
使用Hue提交Oozie Shell作业 操作场景 该任务指导用户通过Hue界面提交Shell类型的Oozie作业。 操作步骤 创建工作流,请参考使用Hue创建工作流。 在工作流编辑页面,选择“Shell”按钮,将其拖到操作区中。 在弹出的“Shell”窗口中配置“Shell command”的值,例如“oozie_shell
在Oozie的“概览”界面,选择右上角“更多 > 重启服务”,重启Oozie服务。 创建工作流,请参考使用Hue创建工作流。 添加互信操作,请参考配置Oozie节点间用户互信。 在工作流编辑页面,选择“Ssh”按钮,将其拖到操作区中。 在弹出的“Ssh”窗口中配置以下参数并单击“添加”。
如果该主机没有域名,则运行样例程序会有如下报错: 此时需要用户设置系统的环境变量USERDNSDOMAIN以规避该问题,具体如下: 单击“计算机”右键,选择“属性”,然后选择“高级系统设置 > 高级 > 环境变量”。 设置系统环境变量,在系统变量下单击“新建”,弹出新建系统变量框
请从Flink服务端安装目录获取相关的依赖包。 请从Kafka环境中获取Kafka依赖包。 具体依赖包请查看样例工程运行依赖包参考信息。 配置Maven。 参考配置华为开源镜像仓章节描述,增加开源镜像仓地址等配置信息到本地Maven的“setting.xml”配置文件。 修改完成后,在IntelliJ IDEA选择“File
如果该主机没有域名,则运行样例程序会有如下报错: 此时需要用户设置系统的环境变量USERDNSDOMAIN以规避该问题,具体如下: 单击“计算机”右键,选择“属性”,然后选择“高级系统设置 > 高级 > 环境变量”。 设置系统环境变量,在系统变量下单击“新建”,弹出新建系统变量框
侧将数据聚合成大宽表再导入ClickHouse。分布式join的查询转成本地表的join查询,不仅省去大量的节点间数据传播,同时本地表参与计算的数据量也会少很多。业务层再基于所有分片本地join的结果进行数据汇总,性能会有数量级的提升。 设置合理的part大小 min_bytes
因为数据模型在建表时就已经确定,且无法修改。所以,选择一个合适的数据模型非常重要。 Aggregate模型可以通过预聚合,极大地降低聚合查询时所需扫描的数据量和查询的计算量,适合有固定模式的报表类查询场景,但是该模型不适用于count(*)查询。同时因为固定了Value列上的聚合方式,在进行其他类型的聚合查询时,需要考虑语义正确性。
Hudi连接器支持元数据缓存,以便更快地提供对各种操作的元数据请求。可参考调整HetuEngine元数据缓存。 动态过滤 开启动态过滤有助于Hudi连接器的Join算子的计算优化。可参考调整HetuEngine动态过滤。 带分区条件查询 建立分区表并且查询带分区过滤条件有助于过滤部分分区数据,从而提高性能。 Hudi数据源约束
10.10 hadoop.hadoop.com”),否则HetuEngine无法根据主机名称连接到非本集群节点。 已创建HetuEngine计算实例。 添加Hive数据源步骤 获取Hive数据源集群的“hdfs-site.xml”和“core-site.xml”配置文件。 登录Hi
Oozie提供REST接口与Hue交互,用于创建工作流、Coordinator、Bundle,以及它们的任务管理和监控。 在Hue前端提供图形化工作流、Coordinator、Bundle编辑器,Hue调用Oozie REST接口对工作流、Coordinator、Bundle进行创建、修改、删除、提交、监控。
Spark2x作业 操作场景 该任务指导用户通过Hue界面提交Spark2x类型的Oozie作业。 操作步骤 创建工作流,请参考使用Hue创建工作流。 在工作流编辑页面,选择“Spark 程序”按钮,将其拖到操作区中。 在弹出的“Spark”窗口配置“Files”,例如“hdfs
与“/ joboverview”相同,但仅包含已完成,已取消或失败的Job。 /jobs/<jobid> 一个Job主要信息包含列出数据流计划,状态,状态转换的时间戳,每个顶点(运算符)的聚合信息。 /jobs/<jobid>/vertices 目前与“/jobs/<jobid>”相同。
与“/ joboverview”相同,但仅包含已完成,已取消或失败的Job。 /jobs/<jobid> 一个Job主要信息包含列出数据流计划,状态,状态转换的时间戳,每个顶点(运算符)的聚合信息。 /jobs/<jobid>/vertices 目前与“/jobs/<jobid>”相同。
口,从而控制是否允许触发ECS流控。 MRS集群支持通过委托获取临时AKSK访问OBS。临时AKSK通过ECS元数据接口获取。ECS元数据接口有单机器5分钟140次的流控阈值,触发流控后机器被加入黑名单,30分钟内不能再次请求元数据接口。为防止触发流控,MRS实现了节点级别跨进程
使用Hue提交Oozie Distcp作业 操作场景 该任务指导用户通过Hue界面提交Distcp类型的Oozie作业。 操作步骤 创建工作流,请参考使用Hue创建工作流。 在工作流编辑页面,选择“DistCp”按钮,将其拖到操作区中。 当前DistCp操作是否是跨集群操作。 是,执行4。 否,执行7。
使用Hue提交Oozie Distcp作业 操作场景 该任务指导用户通过Hue界面提交Distcp类型的Oozie作业。 操作步骤 创建工作流,请参考使用Hue创建工作流。 在工作流编辑页面,选择“DistCp”按钮,将其拖到操作区中。 当前DistCp操作是否是跨集群操作。 是,执行4。 否,执行7。
与“/ joboverview”相同,但仅包含已完成,已取消或失败的Job。 /jobs/<jobid> 一个Job主要信息包含列出数据流计划,状态,状态转换的时间戳,每个顶点(运算符)的聚合信息。 /jobs/<jobid>/vertices 目前与“/jobs/<jobid>”相同。
Spark2x作业 操作场景 该任务指导用户通过Hue界面提交Spark2x类型的Oozie作业。 操作步骤 创建工作流,请参考使用Hue创建工作流。 在工作流编辑页面,选择“Spark 程序”按钮,将其拖到操作区中。 在弹出的“Spark”窗口配置“Files”,例如“hdfs