检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
用户在开发前需要使用对接安全模式的Kafka,则需要引入FusionInsight的kafka-clients-*.jar,该jar包可在Kafka的客户端目录下获取。 下面代码片段仅为演示,完整代码参见FlinkKafkaJavaExample样例工程下的com.huawei.bigdata
如何在提交MapReduce任务时设置任务优先级 问题 如何在提交MapReduce任务时设置任务优先级? 回答 当您在客户端提交MapReduce任务时,可以在命令行中增加“-Dmapreduce.job.priority=<priority>”参数来设置任务优先级。格式如下:
Executor个数太多,会撑爆“Executor”页面,因此需要控制页面显示的Lost Executor个数。 配置描述 在Spark客户端的“spark-defaults.conf”配置文件中进行设置。 表1 参数说明 参数 说明 默认值 spark.ui.retainedDeadExecutors
Oozie定时任务没有准时运行如何处理 问题 在Hue或者Oozie客户端设置执行Coordinator定时任务,但没有准时执行。 回答 设置任务时,需要使用UTC时间。 例如在“job.properties”中配置“start=2016-12-20T09:00Z”。 修改配置后重新启动定时任务即可。
MRS是否支持同时运行多个Flume任务? Flume客户端可以包含多个独立的数据流,即在一个配置文件properties.properties中配置多个Source、Channel、Sink。 这些组件可以链接以形成多个数据流。 例如在一个配置中配置两个数据流,示例如下: server
如何在提交MapReduce任务时设置任务优先级 问题 如何在提交MapReduce任务时设置任务优先级? 回答 当您在客户端提交MapReduce任务时,可以在命令行中增加“-Dmapreduce.job.priority=<priority>”参数来设置任务优先级。格式如下:
Executor个数太多,会撑爆“Executor”页面,因此需要控制页面显示的Lost Executor个数。 配置描述 在Spark客户端的“spark-defaults.conf”配置文件中进行设置。 表1 参数说明 参数 说明 默认值 spark.ui.retainedDeadExecutors
JobHistoryServer实例异常。 KrbServer服务异常。 ZooKeeper服务异常。 HDFS服务异常。 Yarn服务异常。 处理步骤 检查Mapreduce服务JobHistoryServer实例状态。 在FusionInsight Manager界面,选择“集群 > 待操作集群的名称
线数据做对比来获得。 Job基线的确定有如下三个原则: 充分利用集群资源 Reduce阶段尽量放在一轮 每个Task的执行时间要合理 操作步骤 原则一:充分利用集群资源。 Job运行时,会让所有的节点都有任务处理,且处于繁忙状态,这样才能保证资源充分利用,任务的并发度达到最大。可
hadoop.hbase.client.Connection conn = null; try { // 建立HBase连接 conn = ConnectionFactory.createConnection(hbaseConfig);
TezUI界面无法查看Yarn日志 问题 登录Tez WebUI界面,单击Logs跳转yarn日志界面失败,无法加载数据。 回答 Tez WebUI跳转Yarn Logs界面时,目前是通过hostname进行访问,需要在windows机器,配置hostname到ip的映射。具体方法为:
yProvider not found。 原因分析 出现这个报错可能的场景有: 开源HDFS客户端访问MRS集群的HDFS时报错。 使用jar包连接MRS集群的HDFS(包括提交任务时连接HDFS)时报错。 解决办法 方法一: 找到命令或者jar包使用的HDFS配置文件hdfs-site
(dt='2021-10-*') // 删除10月份的分区 注意事项 模糊匹配去删除多分区,仅支持支持*,不支持复杂的正则。 系统响应 可在driver日志和客户端中查看命令运行成功或失败。 父主题: Hudi DML语法说明
edYet Exception: Not replicated yet”错误。 图1 报错信息 回答 以下原因可能造成该报错: HDFS客户端向NameNode发送新Block申请,由于NameNode来不及处理导致超时。 DataNode增量上报太慢,NameNode无法及时分配新的Block。
/hiveserver/localtasklog/omm_<日期>_<任务ID>.log Hive本地任务的运行日志 /hiveserver/localtasklog/omm_<日期>_<任务ID>-gc.log.<编号> Hive本地任务的GC日志 /metastore/metastore.log MetaStore进程的运行日志
/hiveserver/localtasklog/omm_<日期>_<任务ID>.log Hive本地任务的运行日志 /hiveserver/localtasklog/omm_<日期>_<任务ID>-gc.log.<编号> Hive本地任务的GC日志 /metastore/metastore.log MetaStore进程的运行日志
安装补丁后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即您自行搭建的客户端)。 主备Master节点的原始客户端全量更新,请参见更新客户端配置(2.x及之前版本)。 自行搭建的客户端全量安装方法,请参见安装客户端(2.x及之前版本)。
为集群提供服务。Beeline和JDBC客户端代码两种连接方式的操作相同。 连接HA模式下的ThriftServer,连接字符串和非HA模式下的区别在于需要将ip:port替换为ha-cluster,使用到的其他参数见表1。 表1 客户端参数列表 参数名称 含义 默认值 spark
Streaming使用上表中的API接口进行程序开发。而SparkSQL模块,支持CLI或者JDBCServer两种方式访问。其中JDBCServer的连接方式也有Beeline和JDBC客户端代码两种。详情请参见Spark JDBCServer接口介绍。 spark-sql脚本、spark-shell脚本和sp
因而Driver和Executor的参数配置对Spark应用的执行有着很大的影响意义。用户可通过如下操作对Spark集群性能做优化。 操作步骤 配置Driver内存。 Driver负责任务的调度,和Executor、AM之间的消息通信。当任务数变多,任务平行度增大时,Driver内存都需要相应增大。