检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用CDM服务迁移Hadoop数据至MRS集群 应用场景 本章节适用于将线下IDC机房或者公有云Hadoop集群中的数据(支持数据量在几十TB级别或以下的数据量级)迁移到华为云MRS服务。 本章节以通过华为云CDM服务 2.9.1.200版本进行数据迁移为例介绍。不同版本操作可能有差异
ClickHouse基本原理 ClickHouse简介 ClickHouse是一款开源的面向联机分析处理的列式数据库,其独立于Hadoop大数据体系,最核心的特点是压缩率和极速查询性能。同时,ClickHouse支持SQL查询,且查询性能好,特别是基于大宽表的聚合分析查询性能非常优异
布隆过滤器消除了对外部系统的依赖,并存储在Parquet数据文件的页脚中。 BLOOM hoodie.index.bloom.num_entries 存储在布隆过滤器中的条目数。
如果防御规则设置的是拦截,则命令执行失败,系统回显信息如下: ... DB::Exception: Distributed DDL ALTER TABLE UPDATE queries are undesirable..(QUERY_IS_PROHIBITED) ...
配置描述 登录FusionInsight Manager系统,选择“集群 > 服务 > Spark2x > 配置”,单击“全部配置”,搜索acl,在对应的JobHistory,JDBCServer,SparkResource和Spark界面修改以下参数。
具体的配置方法如下: 用户可登录FusionInsight Manager,单击“集群 > 服务 > Yarn > 配置”,单击“全部配置”,单击“NodeManager > 系统”,在“GC_OPTS”参数中修改配置。
登录FusionInsight Manager系统,具体请参见访问集群Manager。 选择“集群 > 服务 > Loader”。 单击“LoaderServer(节点名称,主)”打开“Loader WebUI”界面。
_2 > 0.9 * windowTime.toInt).print() // 6.Streaming系统启动 ssc.start() ssc.awaitTermination() 上述代码会引用以下函数 // 获取字段函数 def getRecord
具体的配置方法如下: 用户可登录FusionInsight Manager,单击“集群 > 待操作集群的名称 > 服务 > Yarn > 配置”,单击“全部配置”,单击“NodeManager > 系统”,在“GC_OPTS”参数中修改配置。
OMS浮动IP地址获取方式:远程登录Master2节点,执行“ifconfig”命令,系统回显中“eth0:wsom”表示OMS浮动IP地址,请记录“inet”的实际参数值。如果在Master2节点无法查询到OMS浮动IP地址,请切换到Master1节点查询并记录。
如果在保留期结束时您没有续费,集群将终止服务,系统中的数据也将被永久删除。 保证金 按需购买集群时,华为云根据用户等级和历史使用情况可能会冻结一定的保证金,资源释放时自动解冻保证金。更多信息,请参见保证金。
“hbase.fs.tmp.dir”参数的默认值为“/user/${user.name}/hbase-staging”(例如“/user/omm/hbase-staging”),此处“$ {user.name}”是操作系统用户名(即omm用户),客户端(kerberos用户,例如admin
操作步骤 选择“系统 > 权限 > 角色”。 单击“添加角色”,然后“角色名称”和“描述”输入角色名字与描述。 设置角色“权限”请参见表1。 设置角色的权限时,不能同时选择跨资源权限,如果需要设置多个资源的相关权限,请依次逐一设置。
操作步骤 选择“系统 > 权限 > 角色”。 单击“添加角色”,然后“角色名称”和“描述”输入角色名字与描述。 设置角色“权限”请参见表1。 设置角色的权限时,不能同时选择跨资源权限,如果需要设置多个资源的相关权限,请依次逐一设置。
如果分区内,某一列的所有值均已过期,则ClickHouse会从文件系统中删除这个分区目录下的列文件。当表内的数据过期时,ClickHouse会删除所有对应的行。 外部件保证数据导入的幂等 ClickHouse不支持数据写入的事务保证。
登录FusionInsight Manager系统,具体请参见访问FusionInsight Manager(MRS 3.x及之后版本)。 选择“集群 > 待操作集群名称 > 服务 > Loader”。
Split阶段访问的文件数 统计Hive周期内Split阶段访问底层文件存储系统(默认:HDFS)的文件数。
登录FusionInsight Manager系统,具体请参见访问FusionInsight Manager(MRS 3.x及之后版本)。 选择“集群 > 待操作集群名称 > 服务 > Loader”。
配置描述 登录FusionInsight Manager系统,选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 配置”,单击“全部配置”,搜索acl,在对应的JobHistory,JDBCServer,SparkResource和Spark界面修改以下参数。
CarbonData将数据源集成到Spark生态系统,用户可使用Spark SQL执行数据查询和分析,也可以使用Spark提供的第三方工具ThriftServer连接到Spark SQL。