检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
BulkLoad工具配置文件说明 该章节主要介绍使用BulkLoad工具的其他配置操作以获取需要查看的数据。 配置自定义的组合rowkey 使用BulkLoad工具批量导入HBase数据时,支持用户自定义组合rowkey。BulkLoad组合rowkey即通过一些规则将多个列名经过一些自定义处理
Python样例代码 功能简介 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 代码样例 下面代码片段仅为演示,具体代码参见collectFemaleInfo.py。 样例代码获取方式请参考获取MRS应用开发样例工程。 代码样例: def contains(str,
使用BulkLoad工具批量导入HBase数据 操作场景 您可以按照自定义的方式,通过命令批量导入数据到HBase中并创建索引。 您可以在“configuration.xml”文件中定义多个方式来批量导入数据。导入数据时可不创建索引。 列的名称不能包含特殊字符,只能由字母、数字和下划线组成
使用BulkLoad工具批量更新HBase数据 操作场景 HBase BulkLoad工具支持根据RowKey的命名规则、RowKey的范围、字段名以及字段值进行批量更新数据。 使用BulkLoad工具批量更新HBase数据 执行如下命令更新从“row_start”到“row_stop
配置HiveMetaStore客户端连接负载均衡 操作场景 Hive的MetaStore客户端连接支持负载均衡,即可通过服务端在ZooKeeper记录的连接数,选择连接最少的节点进行连接,防止大业务场景下造成某个MetaStore高负载,其他MetaStore空闲情况,开启此功能不影响原有连接方式
使用BulkLoad工具批量删除HBase数据 操作场景 BulkLoad工具支持根据rowkey的取值模式、范围、字段名、字段值对HBase数据做批量删除。 使用BulkLoad工具批量删除HBase数据 执行如下命令删除从“row_start”到“row_stop”的行,并且把输出结果定向到
配置Spark SQL语法支持关联子查询不带聚合函数 本章节仅适用于MRS 3.3.1-LTS及之后版本。 配置场景 开源版本Spark SQL强制要求子查询关联中必须使用聚合函数,如果未使用聚合函数将报错“Error in query: Correlated scalar subqueries
配置多主实例模式 配置场景 集群中支持同时共存多个ThriftServer服务,通过客户端可以随机连接其中的任意一个服务进行业务操作。即使集群中一个或多个ThriftServer服务停止工作,也不影响用户通过同一个客户端接口连接其他正常的ThriftServer服务。 配置描述 登录
配置Structured Streaming使用RocksDB做状态存储 本章节仅适用于MRS 3.3.0及之后版本。 配置场景 当大量的状态信息存储在默认的HDFS BackedStateStore,导致JVM GC占用大量时间时,可以通过如下配置,选择RocksDB作为状态后端
使用BulkLoad工具批量删除HBase数据 操作场景 BulkLoad工具支持根据rowkey的取值模式、范围、字段名、字段值对HBase做批量删除。 使用BulkLoad工具批量删除HBase数据 执行如下命令删除从“row_start”到“row_stop”的行,并且把输出结果定向到
配置多主实例模式 配置场景 集群中支持同时共存多个ThriftServer服务,通过客户端可以随机连接其中的任意一个服务进行业务操作。即使集群中一个或多个ThriftServer服务停止工作,也不影响用户通过同一个客户端接口连接其他正常的ThriftServer服务。 配置描述 登录
修改ClickHouse服务级别内存限制 本章节内容仅适用于MRS 3.2.0及之后版本。 操作场景 为保证ClickHouseServer实例所在节点其他服务实例的正常使用,ClickHouseServer支持修改在当前节点占用的最大内存。 操作步骤 登录FusuinInsight
使用BulkLoad工具批量导入HBase数据 操作场景 您可以按照自定义的方式,通过命令批量导入数据到HBase中并创建索引。 您可以在“configuration.xml”文件中定义多个方式来批量导入数据,导入数据时可不创建索引。 列的名称不能包含特殊字符,只能由字母、数字和下划线组成
使用BulkLoad工具批量更新HBase数据 操作场景 HBase BulkLoad工具支持根据RowKey的命名规则、RowKey的范围、字段名以及字段值进行批量更新数据。 使用BulkLoad工具批量更新HBase数据 执行如下命令更新从“row_start”到“row_stop
数据盘密钥名称 用于加密数据盘的密钥名称。如需对已使用的密钥进行管理,请登录密钥管理控制台进行操作。 数据盘密钥ID 用于加密数据盘的密钥ID。 组件版本 集群安装各组件的版本信息。 委托 通过绑定委托,ECS或BMS云服务将有权限来管理您的部分资源。
Flink DataStream样例程序(Java) 功能介绍 统计连续网购时间超过2个小时的女性网民信息,将统计结果直接打印。 DataStream FlinkStreamJavaExample代码样例 下面代码片段仅为演示,具体代码参见com.huawei.bigdata.flink.examples.FlinkStreamJavaExample
配置Spark Executor退出时执行自定义代码 本章节仅适用于MRS 3.2.0及之后版本。 配置场景 通过配置如下参数可以实现Executor退出时执行自定义代码。 配置参数 在Spark客户端的“spark-defaults.conf”配置文件中进行设置。 参数 说明 默认值
配置Spark多租户模式 配置场景 多租户模式是将JDBCServer和租户绑定,每一个租户对应一个或多个JDBCServer,一个JDBCServer只给一个租户提供服务。不同的租户可以配置不同的Yarn队列,从而达到资源隔离。 配置描述 登录Manager,选择“集群 > 服务
使用Spark BulkLoad工具同步数据到HBase表中 Spark BulkLoad工具支持快速同步Hive或Spark表数据到HBase表中,支持全量或增量导入ORC/PAQUET等格式的表数据。 使用Spark BulkLoad同步数据类型数据到HBase表中时,存在以下限制
配置仅Hive管理员用户能创建库和在default库建表 操作场景 此功能在MRS 3.x之前版本适用于Hive,Spark。在MRS3.x及后续版本适用于Hive,Spark2x。 开启此功能后,仅有Hive管理员可以创建库和在default库中建表,其他用户需通过Hive管理员授权才可使用库