检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
对于Yarn的Shuffle Service,其启动的线程数为机器可用CPU核数的两倍,而默认配置的Direct buffer Memory为128M,因此当有较多shuffle同时连接时,平均分配到各线程所能使用的Direct buffer Memory将较低(例如,当机器的CPU为40核,Yarn的Shuffle
这种情况下,这个reduce的执行时间将极大影响这个job的运行时间。因此需要将reduce个数减少。 所有的map运行完后,只有个别节点有reduce在运行。这时候集群资源没有得到充分利用,需要增加reduce的个数以便每个节点都有任务处理。 原则三:每个task的执行时间要合理。
被广播的表计算5分钟,超过5分钟该任务会出现超时异常,而这个时候被广播的表的broadcast任务依然在执行,造成资源浪费。 这种情况下,有两种方式处理: 调整“spark.sql.broadcastTimeout”的数值,加大超时的时间限制。 降低“spark.sql.auto
将数据保存在本地磁盘中,而Streaming的计算结果全部在内存中完成,数据源很有可能成为流式系统的最大瓶颈点。 对Kafka的性能调优,有以下几个点: 使用Kafka-0.8.2以后版本,可以使用异步模式的新Producer接口。 配置多个Broker的目录,设置多个IO线程,
对于Yarn的Shuffle Service,其启动的线程数为机器可用CPU核数的两倍,而默认配置的Direct buffer Memory为128M,因此当有较多shuffle同时连接时,平均分配到各线程所能使用的Direct buffer Memory将较低(例如,当机器的CPU为40核,Yarn的Shuffle
org.apache.spark.SparkConf 分布式模式下,应注意Driver和Executor之间的参数传递 在Spark编程时,总是有一些代码逻辑中需要根据输入参数来判断,这种时候往往会使用这种方式,将参数设置为全局变量,先给定一个空值(null),在main函数中,实例化
S为例) 可能原因三:端口被占用,每一个Spark任务都会占用一个SparkUI端口,默认为22600,如果被占用则依次递增端口重试。但是有个默认重试次数,为16次。16次重试都失败后,会放弃该任务的运行。 查看端口是否被占用: ssh -v -p port username@ip
SparkStreaming访问Kafka,只能读到一个分区。 HBase组件问题: HBase健康检查时,遇到非HBase问题引起的错误码与HBase本身的错误码有重合,导致误告警。 在MRS Manager界面上无法修改HBase服务端的部分配置文件(hdfs-site.xml、core-site.xml、mapred-site
以root用户登录主NameNode节点,用户密码为安装前用户自定义,请咨询系统管理员。 使用ping命令检查主NameNode与该JournalNode之间的网络状况,是否有超时或者网络不可达的情况。 ping JournalNode的业务IP地址 是,执行14。 否,执行15。 联系网络管理员处理网络故障,故障恢复后等待5分钟,查看告警是否清除。
该目录继续增加条目。一旦超过系统最大阈值,继续增加条目会失败。 可能原因 监控目录的条目数超过系统阈值的90%。 处理步骤 检查系统中是否有不需要的文件。 以root用户登录HDFS客户端,用户密码为安装前用户自定义,请咨询系统管理员。执行cd命令进入客户端安装目录,然后执行source
"/tmp/hadoop-yarn/staging/" | wc -l “/tmp/hadoop-yarn/staging/”目录为默认值,如果客户有修改,可以通过mapred-site.xml文件配置项“yarn.app.mapreduce.am.staging-dir”获取此路径。 比
nt”。 配置环境变量: cd /opt/client source bigdata_env 运行此样例代码需要设置运行用户,设置运行用户有两种方式,添加环境变量HADOOP_USER_NAME或者修改代码设置运行用户。若在没有修改代码的场景下,执行以下语句添加环境变量: export
该参数未配置时为非安全Kafka。 如果需要配置SSL,truststore.jks文件生成方式可参考“Kafka开发指南 > 客户端SSL加密功能使用说明”章节。 执行本样例工程,需配置“allow.everyone.if.no.acl.found”为“true”,详情请参考配置对接Kafka。
更新用户(组)与IAM委托的映射关系 功能介绍 更新用户(组)与IAM委托之间的映射关系。 接口约束 无 调用方法 请参见如何调用API。 URI PUT /v2/{project_id}/clusters/{cluster_id}/agency-mapping 表1 路径参数 参数
连接ClickHouse客户端,可参考ClickHouse客户端使用实践。命令中如果携带认证密码信息可能存在安全风险,在执行命令前建议关闭系统的history命令记录功能,避免信息泄露。 普通模式: clickhouse client --host ClickHouse的实例IP --user 登录名 --password
在一个周期内可以使用的最大CPU时间。 schedulingPolicy 可选 指定查询从排队到运行状态的调度策略。 fair(default) 当一个资源组下,有几个子资源组都同时有排队的查询,这些子资源组间按照定义的顺序,轮流获得资源,同一个子资源组的查询按照先来先执行的规则获取资源。 weighted_fair
dependencies for setuptools==47.3.1 若提示setuptools的47.3.1版本安装不成功,则需要检查环境是否有问题或是Python自身原因导致的。 安装Python客户端到客户端机器。 参考获取MRS应用开发样例工程,获取样例代码解压目录中“src\
使用或切换到拥有HDFS上传权限的用户。 使用HDFS上传命令,将“dataLoad”目录上传到HDFS某个指定目录(oozie_cli用户需要对该目录有读写权限)。 该指定目录需要与之前“job.properties”中定义的“oozie.coord.application.path”属性和
允许对待迁移数据表进行查询操作,禁止对该表进行写入、删除等操作,否则可能会造成迁移前后数据不一致。 迁入节点的ClickHouse数据目录有足够的空间。 操作步骤 登录Manager,选择“集群 > 服务 > ClickHouse”, 在ClickHouse服务界面单击“数据迁移”页签,进入数据迁移界面。
Struct Map 下表对所支持的数据类型及其各自的范围进行了详细说明。 表1 CarbonData数据类型 数据类型 范围 Int 4字节有符号整数,从-2,147,483,648到2,147,483,647 说明: 非字典列如果是Int类型,会在内部存储为BigInt类型。 String