检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本并不属于MRS服务SLA保障范围; 但是对于存量集群,为了考虑兼容性,补丁安装完成后dfs.single.replication.enable配置项值为true,保证客户业务不受影响,建议补丁完成后对于没有单副本诉求时手动修改为false后滚动重启HDFS服务,保证HDFS数据的高可靠;
配置MRS集群用户私有属性 admin用户或绑定Manager_administrator角色的管理员用户,可以在Manager配置私有属性功能开关,用于支持用户(集群中所有业务用户)设置或取消自己的私有(Independent)属性。 开启私有属性开关后,需要业务用户登录后设置
根据业务调整对应SQL防御规则的参数。 配置Hive SQL防御前提条件 已安装包含Hive服务的集群客户端,例如安装目录为“/opt/hadoopclient”。 集群中Hive服务运行状态正常。 对于开启了Kerberos认证的集群,已创建具有Hive操作权限的用户。 配置Hive
用户创建文件和目录的权限的掩码为“022”,如果默认权限满足不了用户的需求,可以通过配置项进行默认权限的修改。 参数入口: 请参考修改集群服务配置参数,进入HDFS的“全部配置”页面,在搜索框中输入参数名称。 表1 参数说明 参数 描述 默认值 fs.permissions.umask-mode
配置描述 参数入口: 请参考修改集群服务配置参数,进入HDFS的“全部配置”页面,在搜索框中输入参数名称。 表1 参数说明 参数 描述 默认值 dfs.namenode.delegation.token.max-lifetime 该参数为服务器端参数,设置Token的最大存活时间
使用Hue提交Oozie Shell作业 操作场景 该任务指导用户通过Hue界面提交Shell类型的Oozie作业。 操作步骤 创建工作流,请参考使用Hue创建工作流。 在工作流编辑页面,选择“Shell”按钮,将其拖到操作区中。 在弹出的“Shell”窗口中配置“Shell c
enable”的值为“true”,单击“保存”,在弹出的“保存配置”界面单击“确定”,保存配置。 在Oozie的“概览”界面,选择右上角“更多 > 重启服务”,重启Oozie服务。 创建工作流,请参考使用Hue创建工作流。 添加互信操作,请参考配置Oozie节点间用户互信。 在工作流编辑页面,选择“Ssh”按钮,将其拖到操作区中。
CarbonData表用户权限说明 下表提供了对CarbonData Table执行相应操作所需的Hive ACL特权的详细信息。 前提条件 已经设置了表5或表6中Carbon相关参数。 Hive ACL权限 表1 CarbonData表级操作所需的Hive ACL权限 场景 所需权限
netty.client.numThreads”:默认是“taskmanager.numberOfTaskSlots”,表示netty的客户端和服务端的线程数目设置。 “taskmanager.network.netty.client.connectTimeoutSec”:默认是120
使用LZC压缩算法存储HDFS文件 配置场景 文件压缩可以减少储存文件的空间,并且提高数据从磁盘读取和网络传输的速度。HDFS有Gzip和Snappy这两种默认压缩格式。本章节为HDFS新增加的压缩格式LZC(Lempel-Ziv Compression)提供配置方法。这种压缩格
x及后续版本的启用Kerberos认证的集群。 前提条件 MRS集群管理员已明确业务需求,并准备一个系统用户。 已开启Token认证机制,详细操作请参考Kafka服务端配置。 已安装Kafka客户端。 操作步骤 以客户端安装用户,登录安装Kafka客户端的节点。 切换到Kafka客户端安装目录,例如“/opt/client”。
权限管理,具体操作可参考添加Spark2x的Ranger访问权限策略。 Spark2x开启或关闭Ranger鉴权后,需要重启Spark2x服务,并重新下载客户端,或刷新客户端配置文件spark/conf/spark-defaults.conf: 开启Ranger鉴权:spark.ranger
Spark Core内存调优 操作场景 并行度控制任务的数量,影响shuffle操作后数据被切分成的块数。调整并行度让任务的数量和每个任务处理的数据与机器的处理能力达到合适。 查看CPU使用情况和内存占用情况,当任务和数据不是平均分布在各节点,而是集中在个别节点时,可以增大并行度
聚合算法优化 操作场景 在Spark SQL中支持基于行的哈希聚合算法,即使用快速聚合hashmap作为缓存,以提高聚合性能。hashmap替代了之前的ColumnarBatch支持,从而避免拥有聚合表的宽模式(大量key字段或value字段)时产生的性能问题。 操作步骤 要启动
使用Hue提交Oozie HQL脚本 操作场景 该任务指导用户通过Hue界面提交Hive脚本作业。 操作步骤 访问Hue WebUI,请参考访问Hue WebUI界面。 在界面左侧导航栏选择“ > Workflow”,打开Workflow编辑器。 单击“文档”, 在操作列表中选择Hive脚本,将其拖到操作界面中。
Hive支持ZSTD压缩格式 ZSTD(全称为Zstandard)是一种开源的无损数据压缩算法,其压缩性能和压缩比均优于当前Hadoop支持的其他压缩格式,本特性使得Hive支持ZSTD压缩格式的表。Hive支持基于ZSTD压缩的存储格式有常见的ORC,RCFile,TextFi
INSERT INTO插入表数据 本章节主要介绍ClickHouse插入表数据的SQL基本语法和使用说明。 基本语法 方法一:标准格式插入数据。 INSERT INTO [database_name.]table [(c1, c2, c3)] VALUES (v11, v12, v13)
ClickHouse数据导入导出 使用ClickHouse客户端导入导出数据 本章节主要介绍使用ClickHouse客户端导入导出文件数据的基本语法和使用说明。 CSV格式数据导入 clickhouse client --host 主机名/ClickHouse实例IP地址 --database
插入HBase数据 功能简介 HBase是一个面向列的数据库,一行数据,可能对应多个列族,而一个列族又可以对应多个列。通常,写入数据的时候,需要指定要写入的列(含列族名称和列名称)。HBase通过HTable的put方法来Put数据,可以是一行数据也可以是数据集。 代码样例 以下代码片段在com
删除HDFS文件 功能简介 删除HDFS上某个指定文件或者文件夹。 被删除的文件或文件夹,会被放在当前用户目录下的.Trash/Current文件夹中。若发生误删除,可从该文件夹中恢复。 代码样例 如下是删除文件的代码片段,详细代码请参考com.huawei.bigdata.hdfs