检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
优化Flink内存GC参数 操作场景 Flink是依赖内存计算,计算过程中内存不够对Flink的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存使用及剩余情况来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的YARN的Container
Flume常用配置参数 部分参数可在Manager界面配置。 使用Flume需要配置Source、Channel和Sink,各模块配置参数说明可通过本节内容了解。 MRS 3.x及之后版本部分参数可通过Manager界面配置,选择“集群 > 服务 > Flume > 配置工具”,
配置NameNode内存参数 配置场景 在HDFS中,每个文件对象都需要在NameNode中注册相应的信息,并占用一定的存储空间。随着文件数的增加,当原有的内存空间无法存储相应的信息时,需要修改内存大小的设置。 配置描述 参数入口: 请参考修改集群服务配置参数,进入HDFS“全部配置”页面。
配置NameNode内存参数 配置场景 在HDFS中,每个文件对象都需要在NameNode中注册相应的信息,并占用一定的存储空间。随着文件数的增加,当原有的内存空间无法存储相应的信息时,需要修改内存大小的设置。 配置描述 参数入口: 请参考修改集群服务配置参数,进入HDFS“全部配置”页面。
如果是安全集群,使用以下命令用户进行用户认证,如果当前集群未启用Kerberos认证,则无需执行此命令。 kinit 用户名 创建OBS文件。 执行以下命令登录spark-sql命令行: cd 客户端安装目录/Spark2x/spark/bin ./spark-sql 执行以下命令在OBS中创建表并插入数据:
obs://obs-mrstest/data Mounted obs://obs-mrstest/data at /mnt/obs 通过Alluxio命名空间列出OBS文件系统中的文件。使用ls命令列出OBS挂载目录下的文件。 alluxio fs ls /mnt/obs 38
使用限制:如果用户使用自定义脚本(例如A.sh)并在脚本中调用该命令,则脚本A.sh不能传入参数。如果确实需要给A.sh传入参数,则需采用二次调用方式。 例如A.sh中调用B.sh,在B.sh中调用该命令。A.sh可以传入参数,B.sh不能传入参数。 start-scala-shell.sh local
导出MRS集群配置参数 管理员可以将MRS集群中各组件的关键服务端配置参数导出,用于快速检查或者备份集群内组件配置。 前提条件 如果通过MRS管理控制台操作,需要已完成IAM用户同步(在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步)。 如果通过
配置Hive通过IAM委托访问OBS 参考配置MRS集群通过IAM委托对接OBS完成存算分离集群配置后,即可在Hive客户端创建Location为OBS路径的表。 建表时指定Location为OBS路径 使用安装客户端用户登录客户端安装节点。 执行如下命令初始化环境变量。 source
create子命令为provider中<keyname>参数指定的name创建一个新的密钥,provider是由-provider参数指定。用户可以使用参数-cipher定义一个密码。目前默认的密码为"AES/CTR/NoPadding"。 默认密钥的长度为128。用户可以使用参数-si
优化Flink内存GC参数 操作场景 Flink是依赖内存计算,计算过程中内存不够对Flink的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存使用及剩余情况来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的YARN的Container
protection参数控制。 如果客户端和服务端的hadoop.rpc.protection参数的配置值不一样,即会报No common protection layer between client and server错误。 hadoop.rpc.protection参数表示数据可通过以下任一方式在节点间进行传输。
登录安装客户端的节点。 执行以下命令,切换到客户端安装目录。 cd /opt/client 执行以下命令配置环境变量。 source bigdata_env 如果集群为安全模式,执行distcp命令的用户所属的用户组必须为supergroup组,且执行以下命令进行用户认证。普通模式集群无需执行用户认证。
配置“Main class”的值。例如“org.apache.oozie.example.SparkFileCopy”。 单击“参数+”,添加输入输出相关参数。 例如添加: “hdfs://hacluster/user/admin/examples/input-data/text/data
配置Spark Executor堆内存参数 配置场景 当分配的内存太小或者被更高优先级的进程抢占资源时,会出现物理内存超限的情况。调整如下参数,可以防止物理内存超限。 配置描述 参数入口: 在应用提交时通过“--conf”设置这些参数,或者在客户端的“spark-defaults
配置Spark Executor堆内存参数 配置场景 当分配的内存太小或者被更高优先级的进程抢占资源时,会出现物理内存超限的情况。调整如下参数,可以防止物理内存超限。 配置描述 参数入口: 在应用提交时通过“--conf”设置这些参数,或者在客户端的“spark-defaults
配置Oozie作业运行参数 功能描述 流程的属性定义文件,定义了流程运行期间使用的外部参数值对。 参数解释 “job.properties”文件中包含的各参数及其含义,请参见表1。 表1 参数含义 参数 含义 nameNode HDFS NameNode集群地址 resourceManager
检查GC_OPTS相关参数存在多余空格,如-D sun.rmi.dgc.server.gcInterval=0x7FFFFFFFFFFFFFE。 解决办法 针对memstore、cache修改配置参数后,重启HBase服务成功。 针对GC_OPTS配置错误,修改参数后重启HBase服务成功。
Flink on Hudi作业参数建议 Hudi表作为Source表时建议设置限流 Hudi表作为Source表,防止上限超过流量峰值,导致作业出现异常带来不稳定因素,因此建议设置限流,限流上限应该为业务上线压测的峰值。 使用时需添加如下参数: 'read.rate.limit'
在本示例中,由于要分析处理OBS文件系统中的数据,因此在集群的高级配置参数中要为MRS集群绑定IAM权限委托,使得集群内组件能够对接OBS并具有对应文件系统目录的操作权限。 您可以直接选择“MRS_ECS_DEFAULT_AGENCY”,也可以自行创建其他具有OBS文件系统操作权限的自定义委托。