检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
任意输入类型步骤中,原数据包含字段的个数小于配置字段的个数,或者原数据字段值与配置字段的类型不匹配时,全部数据成为脏数据。 “CSV文件输入”步骤中,“验证输入字段”检验输入字段与值的类型匹配情况,检查不匹配时跳过该行,当前行成为脏数据。 “固定宽度文件输入”步骤中,“固定长度”指定字段分割长
用到的配置,在本地选择步骤 4获取的“hdfs-site.xml”文件。 图4 添加HBase数据源 单击“确定”创建HBase数据源。 验证数据源连接是否成功。 登录集群客户端所在节点,执行以下命令,切换到客户端安装目录并认证用户。 cd /opt/client source bigdata_env
指定转换步骤,值为转换步骤文件所在的路径。当指定文件的相对路径时,默认为“sqoop2-shell”脚本所在路径下的文件。当配置了该属性,其他扩展属性都被忽略。 sqoop1对接MRS服务 下载开源Sqoop,http://www.apache.org/dyn/closer.lua/sqoo:p/1.4.7。 将下载好的sqoop-1
指定转换步骤,值为转换步骤文件所在的路径。当指定文件的相对路径时,默认为“sqoop2-shell”脚本所在路径下的文件。当配置了该属性,其他扩展属性都被忽略。 sqoop1对接MRS服务 下载开源Sqoop,http://www.apache.org/dyn/closer.lua/sqoo:p/1.4.7。 将下载好的sqoop-1
可实现使用Python对接Hive并提交数据分析任务。 python3-examples 使用Python3连接Hive执行SQL样例。 可实现使用Python3对接Hive并提交数据分析任务。 IoTDB iotdb-examples iotdb-flink-example
Scheduler只存储正在运行的applicationID,所以当查看的是已结束或不存在的applicationID,服务器会响应给浏览器“404”的状态码。但是由于chrome浏览器访问该REST接口时,优先以“application/xml”的格式响应,该行为会导致服务器端处理出现异常,所以返回的页面会提示“Error
的mysqlimport,可以比jdbc连接的方式更为高效的将数据导入到关系数据库中。 -update-key <col-name> 后面接条件列名,通过该参数可以将关系数据库中已经存在的数据进行更新操作,类似于关系数据库中的update操作。 -update-mode <mode>
https://{endpoint}/v1.1/{project_id}/job-executions/{job_execution_id} 响应示例 无 状态码 状态码 描述 204 删除作业执行对象成功。 错误码 请参见错误码。 父主题: V1.1 作业管理接口(废弃)
Scheduler只存储正在运行的applicationID,所以当查看的是已结束或不存在的applicationID,服务器会响应给浏览器“404”的状态码。但是由于chrome浏览器访问该REST接口时,优先以“application/xml”的格式响应,该行为会导致服务器端处理出现异常,所以返回的页面会提示“Error
"statusCode":0}]} 如果无法查询出健康状态码或者浏览器一直无响应,可能是由于Oozie进程故障导致服务不可用,请参考13进行处理。 根据查询到的错误码执行相关处理步骤,请参考表1。 表1 Oozie服务健康状态码一览表 状态码 错误描述 错误原因 处理步骤 0 服务正常 无
附录 MRS所使用的弹性云服务器规格 MRS所使用的裸金属服务器规格 状态码 错误码 获取项目ID 获取账号ID 获取MRS集群信息 MRS支持的角色与组件对应表
Stage 每个Job由多个Stage组成,每个Stage是一个Task集合,由DAG分割而成。 Task 承载业务逻辑的运算单元,是Spark平台上可执行的最小工作单元。一个应用根据执行计划以及计算量分为多个Task。 Spark应用运行原理 Spark的应用运行架构如图 Spark应用运行架构所示,运行流程如下所示:
的mysqlimport,可以比jdbc连接的方式更为高效的将数据导入到关系数据库中。 -update-key <col-name> 后面接条件列名,通过该参数可以将关系数据库中已经存在的数据进行更新操作,类似于关系数据库中的update操作。 -update-mode <mode>
的mysqlimport,可以比jdbc连接的方式更为高效的将数据导入到关系数据库中。 -update-key <col-name> 后面接条件列名,通过该参数可以将关系数据库中已经存在的数据进行更新操作,类似于关系数据库中的update操作。 -update-mode <mode>
"node_group_2", "resource_pool_name" : "resource_1" } 响应示例 无 状态码 状态码 描述 202 删除弹性伸缩策略成功 错误码 请参见错误码。 父主题: 弹性伸缩接口
"tag" : { "key" : "DEV", "value" : "DEV1" } } 响应示例 无 状态码 状态码 描述 204 指定集群的标签添加成功 错误码 请参见错误码。 父主题: 标签管理接口
"DEV1" }, { "key" : "DEV2", "value" : "DEV2" } ] } 响应示例 无 状态码 状态码 描述 204 操作成功。 错误码 请参见错误码。 父主题: 标签管理接口
作业状态码。 约束限制: 不涉及 取值范围: -1:Terminated 1:Starting 2:Running 3:Completed 4:Abnormal 5:Error 默认取值: 不涉及 job_final_status Integer 参数解释: 作业最终状态码。 约束限制:
Spark Core 日志聚合下如何查看Spark已完成应用日志 Driver返回码和RM WebUI上应用状态显示不一致 为什么Driver进程不能退出 网络连接超时导致FetchFailedException 当事件队列溢出时如何配置事件队列的大小 Spark应用执行过程中,
Spark Core 日志聚合下,如何查看Spark已完成应用日志 Driver返回码和RM WebUI上应用状态显示不一致 为什么Driver进程不能退出 网络连接超时导致FetchFailedException 当事件队列溢出时如何配置事件队列的大小 Spark应用执行过程中