检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
务调度,执行端负责任务执行。 读取文件的过程如图1所示。 图1 读取文件过程 读取文件步骤的详细描述如下所示: Driver与HDFS交互获取File A的文件信息。 HDFS返回该文件具体的Block信息。 Driver根据具体的Block数据量,决定一个并行度,创建多个Task去读取这些文件Block。
名称进入安全组控制台,在入方向规则页签中添加一个“协议端口”为TCP 3306,“源地址”为Hive的MetaStore实例所在的所有节点IP的规则。 Ranger仅支持对接RDS服务MySQL数据库,版本号为:MySQL 5.7.x、MySQL 8.0。 Hive支持对接RDS
影响时间 meta 直接重启 Yarn超大频率获取临时AKSK时可能触发流控,正常场景不涉及 耗时约5分钟 滚动重启 滚动重启不影响业务 滚动重启10个节点耗时约20分钟 DBService 直接重启 重启期间影响Hive获取元数据,影响组件获取配置 直接重启耗时约5分钟 滚动重启 滚动重启不影响业务
conf)。user.keytab和krb5.conf文件为安全模式下的认证文件,需要在FusionInsight Manager中下载principal用户的认证凭证,样例代码中使用的用户为:super,需要修改为准备好的开发用户。 打包项目 通过IDEA自带的Maven工具,打包项目
conf)。user.keytab和krb5.conf文件为安全模式下的认证文件,需要在FusionInsight Manager中下载principal用户的认证凭证,样例代码中使用的用户为:super,需要修改为准备好的开发用户。 打包项目 通过IDEA自带的Maven工具,打包项目
设置“缩容节点数量”,并单击“确定”。 缩容集群前需要检查集群安全组是否配置正确,要确保集群入方向安全组规则中有一条全部协议,全部端口,源地址为可信任的IP访问范围的规则。 若HDFS存在损坏的数据块,则缩容集群可能出现失败,请联系华为云支持人员处理。 页面右上角弹出缩容节点提交成功提示框。 集群缩容过程说明如下:
Sqoop常用命令介绍 表1 Sqoop常用命令介绍 命令 说明 import 数据导入到集群 export 集群数据导出 codegen 获取数据库中某张表数据生成Java并打包jar create-hive-table 创建Hive表 eval 执行sql并查看结果 import-all-tables
InsertOverwrite数据不一致问题。 解决Superior调度器分配资源到用户时有可能会卡顿问题。 解决Yarn扩容导致性能劣化问题。 解决Yarn RETS API获取各个队列的资源反馈结果为0的问题。 解决Yarn RETS API并发查询队列详情的接口偶现查询结果为0的问题。 解决管控面提交Flink作业打印敏感日志的问题。
表名 原始数据条数 过滤后数据条数 选择率 date_dim 73000 6200 8.5% item 18000 19 0.1% 上述表格获取到原始表的数据条数,估算出过滤后的数据条数后,计算出选择率=过滤后条数/原始条数。 从上表可以看出,item表具有较好的过滤效果,因此CBO将item表的Join顺序提前。
ib-*.tar.gz”,找到Share Lib Jar包: tar -zxf oozie-sharelib-*.tar.gz 上传6.a获取的oozie Jar包到检查结果对应的HDFS路径下。 hdfs dfs -put -f 本地Jar包路径 异常Oozie Jar包所在的HDFS路径
硬盘离线、硬盘坏道等故障。 处理步骤 打开FusionInsight Manager页面,选择“运维 > 告警 > 告警”,单击此告警所在行的。 从“定位信息”中获取“主机名”、“设备分区名”和“挂载目录名”。 确认“主机名”节点的“设备分区名”对应的磁盘是否在对应服务器的插槽上。 是,执行4。 否,执行5。
source bigdata_env 如果集群采用安全版本,要执行以下命令进行安全认证: kinit hbase 按提示输入密码(向MRS集群管理员获取密码)。 执行hbase zkcli命令进入ZooKeeper客户端,然后执行命令listquota /hbase查看对应HBase服务的
Sqoop常用命令介绍 表1 Sqoop常用命令介绍 命令 说明 import 数据导入到集群 export 集群数据导出 codegen 获取数据库中某张表数据生成Java并打包jar create-hive-table 创建Hive表 eval 执行sql并查看结果 import-all-tables
一个时间范围获取监控数据,例如“1周”。 默认为实时数据,无法导出。单击可以自定义监控数据时间范围。 在图表区的右上角,单击,在弹出菜单中选择“导出” 导出指定监控项数据 在“主页”选择所需要操作的集群的图表区任意一个监控报表窗格的右上角,单击。 选择一个时间范围获取监控数据,例如“1周”。
如果运行的SQL脚本依赖数据的失效性,建议不启用断点重连机制,或者每次运行时使用新的batchid。因为重复执行时,可能由于某些SQL语句已经执行过了不再重新执行,导致获取到过期的数据。 如果SQL脚本中使用了一些内置时间函数,建议不启用断点重连机制,或者每次运行时使用新的batchid,理由同上。 一个SQ
行,当执行到testFun函数时,需要从内存中取出testArg的值,但是testArg的值只在启动main函数的节点改变了,其他节点无法获取这些变化,因此它们从内存中取出的就是初始化这个变量时的值null,这就是空指针异常的原因。 应用程序结束之前必须调用SparkContext
如果运行的SQL脚本依赖数据的失效性,建议不启用断点重连机制,或者每次运行时使用新的batchid。因为重复执行时,可能由于某些SQL语句已经执行过了不再重新执行,导致获取到过期的数据。 如果SQL脚本中使用了一些内置时间函数,建议不启用断点重连机制,或者每次运行时使用新的batchid,理由同上。 一个SQ
监控Spark作业的大目录阈值,超过当前阈值就会上报事件。 单位:GB。 100 job.monitor.local.thread.pool 获取NodeManager的监控的大作业的信息的线程数。 50 max.job.count 事件中显示大作业的数量。 10 job.monitor
上分区分布是否均衡。 图1 Broker上分区分布不均衡示例 是,执行13。 否,执行11。 单击最右侧分区不均衡的条柱,查看是否包含5中获取的当前告警上报的节点,如果包含则需要执行数据均衡。 等待5分钟,查看告警是否自动清除。 是,操作结束。 否,执行13。 收集故障信息。 在FusionInsight
上分区分布是否均衡。 图1 Broker上分区分布不均衡示例 是,执行13。 否,执行11。 单击最右侧分区不均衡的条柱,查看是否包含5中获取的当前告警上报的节点,如果包含则需要执行数据均衡。 等待5分钟,查看告警是否自动清除。 是,操作结束。 否,执行13。 收集故障信息。 在FusionInsight