检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
分布式Scan HBase表 场景说明 用户可以在Spark应用程序中使用HBaseContext的方式去操作HBase,使用hbaseRDD方法以特定的规则扫描HBase表。 数据规划 使用操作Avro格式数据章节中创建的hbase数据表。 开发思路 设置scan的规则,例如:setCaching。
SparkStreaming批量写入HBase表 场景说明 用户可以在Spark应用程序中使用HBaseContext的方式去操作HBase,使用streamBulkPut接口将流数据写入Hbase表中。 数据规划 在客户端执行hbase shell进入HBase命令行。 在HB
依赖Hive级联授权功能,实现用户基于Ranger对业务表授权,自动细粒度关联OBS对应存储目录的权限,无需二次授权,即用户只需在Ranger页面上对业务表进行一次授权,系统就会自动细粒度关联数据存储源的权限,不需要感知表的存储路径,无需进行二次授权。 Ranger页面OBS授权
处理步骤 检查是否MemTable太多 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”。 在告警列表中,查看是否存在告警“ALM-45643 RocksDB的MemTable大小持续超过阈值”。 是,执行3。 否,执行5。 参考ALM-45643
检查是否MemTable太多引起写限流或写停止 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”。 在告警列表中,查看是否存在告警“ALM-45643 RocksDB的MemTable大小持续超过阈值”。 是,执行3。 否,执行5。 参考ALM-45643
afka*.jar),若应用开发中需要请手动复制相关jar包到lib目录中。 针对Flink提供的几个样例工程,其对应的运行依赖包如下: 表1 样例工程运行依赖包 样例工程 依赖包 依赖包获取地址 DataStream程序 异步Checkpoint机制程序 flink-dist_*
/jobmanager/metrics JobManager的指标。 /:* 对Web前端的静态文件(如HTML,CSS或JS文件)的请求。 表1中变量的介绍请参见表2。 表2 变量说明 变量 说明 jobid job的id。 vertexid 流图的顶点id。 subtasknum 子任务的总和。
/jobmanager/metrics JobManager的指标。 /:* 对Web前端的静态文件(如HTML,CSS或JS文件)的请求。 表1中变量的介绍请参见表2。 表2 变量说明 变量 说明 jobid job的id vertexid 流图的顶点id subtasknum 子任务的总和 attempt
用数字和单位组合,m表示分钟,s表示秒。 默认值:3m 取值范围:1-60m或1-3600s proxy_timeout 与代理服务器的tcp连接上两次连续读取或写入操作之间的超时。如果在此时间内没有数据传输,则连接关闭。使用数字和单位组合,m表示分钟,s表示秒。 默认值:3m 取值范围:1-60m或1-3600s
导出分区时,导出的表必须为分区表,且不支持导出同一个分区字段的多个分区值的数据;导入到表中分区时导入的表必须是分区表。 导入数据时需注意: 使用import from '/tmp/export';命令导入表是没有指定表名的场景,该场景导入的数据会保存到与源表名相同的表路径下,需注意以下两点:
_ip_list= native_dataSource_ip_list= 表1 配置说明表 配置名称 默认值 含义 loadBalancerIPList - 必填参数,配置为LoadBalance的IP列表。 登录FusionInsight Manager,选择“集群 > 服务 >
fka每个Partition中的数据,数据高可靠。 从实现上来看,DirectKafka的性能更好,实际测试上来看,DirectKafka也确实比其他两个API性能好了不少。因此推荐使用DirectKafka的API实现接收器。 数据接收器作为一个Kafka的消费者,对于它的配置
code=0) 原因分析 客户查询大量数据,数据量过大。 客户在检索数据时使用select * from table_name;,进行全表查询,表内数据过多。 beeline默认启动内存128M,查询时返回结果集过大,导致beeline无法承载导致。 解决办法 执行select count(*)
Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Hive > 实例”,单击告警上报的HiveServer,进入实例“概览”页面,单击图表区域右上角的下拉菜单,选择“定制 > CPU和内存”,勾选“HiveServer内存使用率统计”,单击“确定”,查看HiveServer进程
登录FusionInsight Manager页面。 选择“集群 > 服务 > HetuEngine > 配置 > 全部配置”,参考表1调整集群节点资源配置参数。 表1 集群节点资源配置参数 参数名称 默认值 建议值 参数解释 参数文件 yarn.hetuserver.engine.coordinator
/jobmanager/metrics JobManager的指标。 /:* 对Web前端的静态文件(如HTML,CSS或JS文件)的请求。 表1中变量的介绍请参见表2。 表2 变量说明 变量 说明 jobid job的id。 vertexid 流图的顶点id。 subtasknum 子任务的总和。
/jobmanager/metrics JobManager的指标。 /:* 对Web前端的静态文件(如HTML,CSS或JS文件)的请求。 表1中变量的介绍请参见表2。 表2 变量说明 变量 说明 jobid job的id vertexid 流图的顶点id subtasknum 子任务的总和 attempt
luster1的userA没有访问本集群HBase meta表权限,但是cluster2的userA有访问该集群HBase meta表权限,则cluster1的userA可以访问cluster2的HBase meta表。 跨Manager之间的安全集群间组件互相访问,需要先配置系统互信。
SparkStreaming批量写入HBase表 场景说明 用户可以在Spark应用程序中使用HBaseContext的方式去操作HBase,使用streamBulkPut接口将流数据写入Hbase表中。 数据规划 在客户端执行hbase shell进入HBase命令行。 在HB
rowKey构造成rdd,然后通过HBaseContext的bulkGet接口获取对HBase表上这些rowKey对应的数据。 数据规划 基于BulkPut接口使用章节创建的HBase表及其中的数据进行操作。 开发思路 创建包含了要获取的rowkey信息的RDD。 以HBaseC