检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
HetuEngine应用开发简介 准备开发和运行环境 HetuEngine的应用程序支持使用任何语言调用JDBC接口进行开发,当前样例主要是java语言。推荐使用IDEA工具,请根据指导完成不同语言的开发环境配置。HetuEngine的运行环境即客户端,请根据指导完成客户端的安装和配置。
Manager,选择“集群 > 服务 > CDL”,单击“CDLService UI”右侧的超链接进入CDLService WebUI界面,在数据同步任务作业列表界面选择该作业所在行的“更多 > 停止”,等待任务停止完成后选择“更多 > 编辑”。 修改Source侧的“WhiteList”参数值与配置的Topic
客户端工具说明 使用客户端运行Loader作业 loader-tool工具使用指导 loader-tool工具使用示例 schedule-tool工具使用指导 schedule-tool工具使用示例 使用loader-backup工具备份作业数据 开源sqoop-shell工具使用指导
请参考修改集群服务配置参数,进入HDFS“全部配置”页面。 表1 参数说明 配置参数 说明 默认值 GC_PROFILE NameNode所占内存主要由FsImage大小决定。FsImage Size = 文件数 * 900 Bytes,根据计算结果可估算hdfs的NameNode应设内存大小。
客户端工具说明 使用命令行运行Loader作业 loader-tool工具使用指导 loader-tool工具使用示例 schedule-tool工具使用指导 schedule-tool工具使用示例 使用loader-backup工具备份作业数据 开源sqoop-shell工具使用指导
outer join到MultiJoin状态不兼容,切换时无法通过快照恢复作业。 FlinkSQL支持MultiJoin算子使用方法 配置Flink作业时,可通过在FlinkServer WebUI的Flink作业开发界面添加自定义参数“table.optimizer.multi-j
be queried. 作业日志聚集路径为空,无法查询日志 按照检查作业日志路径是否正确 400 0188 The job query result is empty. Logs cannot be obtained. 作业查询结果为空,无法获取日志 按照检查作业日志路径是否正确 400
设置用户对CDL作业的所有管理权限 在“job”选择CDL作业名。 在“Allow Conditions”区域,单击“Select User”下选择框选择用户。 单击“Add Permissions”,勾选“Select/Deselect All”。 设置用户对CDL作业的创建权限 在“job”选择CDL作业名。
请参见配置Oozie作业运行参数。 编写Workflow任务文件“workflow.xml”。 表1 流程Action 编号 步骤 描述 1 定义startaction 请参见配置Oozie作业执行入口 2 定义MapReduceaction 请参见配置Oozie MapReduce作业 3 定义FS
请参考修改集群服务配置参数,进入HDFS“全部配置”页面。 表1 参数说明 配置参数 说明 默认值 GC_PROFILE NameNode所占内存主要由FsImage大小决定。FsImage Size = 文件数 * 900 Bytes,根据计算结果可估算hdfs的NameNode应设内存大小。
当前MRS不支持在线查看组件资源的审计日志信息,可登录组件安装节点,进入“/var/log/Bigdata/audit”目录下查看各组件的审计日志,日志中主要字段含义如下: result:策略校验结果,0表示拒绝,1表示允许。 policy:匹配生效的策略ID,对应页面中策略的“Policy ID”,若为-1表示未匹配到策略。
MapReduce访问多组件样例程序开发思路 场景说明 该样例以MapReduce访问HDFS、HBase、Hive为例,介绍如何编写MapReduce作业访问多个服务组件。帮助用户理解认证、配置加载等关键使用方式。 该样例逻辑过程如下: 以HDFS文本文件为输入数据: log1.txt:数据输入文件
MapReduce访问多组件样例程序开发思路 场景说明 该样例以MapReduce访问HDFS、HBase、Hive为例,介绍如何编写MapReduce作业访问多个服务组件。帮助用户理解认证、配置加载等关键使用方式。 该样例逻辑过程如下: 以HDFS文本文件为输入数据: log1.txt:数据输入文件
当的提早启动Reduce任务会提高Shuffle阶段的资源利用率,提高任务运行效率。例如:某集群可启动10个Map任务,MapReduce作业共15个Map任务,那么在一轮Map任务执行完成后只剩5个Map任务,集群还有剩余资源,在这种场景下,配置Slow Start参数值小于1,比如0
FlinkSQL HBase数据表开发规则 提前在HBase中创建表 Flink作业在HBase中找不到对应表会报错,所以需要提前在HBase中创建好对应的表。 HBase与Flink不在同一集群时只支持Flink和HBase均为普通模式集群的对接 当HBase与Flink为同一
当的提早启动Reduce任务会提高Shuffle阶段的资源利用率,提高任务运行效率。例如:某集群可启动10个Map任务,MapReduce作业共15个Map任务,那么在一轮Map任务执行完成后只剩5个Map任务,集群还有剩余资源,在这种场景下,配置Slow Start参数值小于1,比如0
对于批系统,与上游的切片数相同(例如HDFS的block数量)。 Flink作业中有Source、Sink、中间计算算子的并行度可以调整。通过分析作业流图,如果发现是中间计算Busy就需要通过调整整个作业并行度来调整这类算子的并行度,常见的如join算子。 父主题: Flink性能调优开发规范
通过操作系统定时任务或者其他定时任务方式定时执行kinit命令认证用户。 提交作业执行大数据任务。 对于Spark作业 通过spark-shell、spark-submit、spark-sql方式提交作业,可以直接在命令行中指定Keytab和Principal以获取认证,定期更新登
r_id}/files mrs:file:list √ √ 新增作业并执行(V1) POST /v1.1/{project_id}/jobs/submit-job mrs:job:submit √ √ 新增并执行作业(V2) POST /v2/{project_id}/clust
如果您的集群涉及到Kafka业务,请先停止所有向Kafka中生产数据的作业,等待Kafka的消费作业消费完Kafka中的存量数据后,再执行下一步操作。 停止所有与HDFS、HBase、Hive相关的业务和作业,然后停止HBase、Hive服务。 打通数据传输通道 当源集群与目标集