检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
选择“集群 > 服务 > HetuEngine > 配置 > 全部配置”。
数据规划 基于BulkPut接口使用章节创建的HBase表及其中的数据进行操作。 开发思路 创建包含了要获取的rowkey信息的RDD。
数据规划 基于BulkPut接口使用章节中创建的HBase表及其中的数据进行操作。 开发思路 创建包含了要获取的rowkey信息的RDD。
数据规划 基于BulkPut接口使用章节创建的HBase表及其中的数据进行操作。 开发思路 创建包含了要删除的rowkey信息的RDD。
参考获取MRS应用开发样例工程,获取样例代码解压目录中“src”目录下的样例工程文件夹“kafka-examples”。 获取配置文件。
处理步骤 当需要高精度的数据比较时,可以使用Decimal数据类型的数值,例如,在财务应用程序中,equality和inequality检查,以及取整运算,均可使用Decimal数据类型的数值。 参考信息 无。 父主题: CarbonData故障排除
停止或卸载Flume客户端 操作场景 指导运维工程师停止、启动Flume客户端,以及在不需要Flume数据采集通道时,卸载Flume客户端。 操作步骤 停止Flume角色的客户端。
通过Spark-sql创建Hudi表或者Hive表,未插入数据前,查询表统计信息为空 问题 通过spark-sql创建Hudi表或者Hive表,未插入数据之前,查询表统计信息都为空。 回答 可以通过以下两种方式生成: 手动通过analyze命令,触发统计信息收集。
HiveServer业务平面IP地址可登录FusionInsight Manager,选择“集群 > 服务 > Hive > 实例”查看。
创建表有两种方式,建议采用预分Region建表方式: 快速建表,即创建表后整张表只有一个Region,随着数据量的增加会自动分裂成多个Region。 预分Region建表,即创建表时预先分配多个Region,此种方法建表可以提高写入大量数据初期的数据写入速度。
对接OBS场景中,spark-beeline登录后指定loaction到OBS建表失败 问题 对接OBS ECS/BMS集群,spark-beeline登录后,指定location到OBS建表报错失败。
当客户端所在主机不是集群中的节点时,需要在客户端所在节点的hosts文件中设置主机名和IP地址映射。主机名和IP地址请保持一一对应。 操作步骤 执行mvn package生成jar包,在工程目录target目录下获取,比如:hdfs-examples-1.0.jar。
堆栈信息日志(MRS 3.2.0及以后版本) threadDump-<DATE>.log NodeAgent下发停止服务指令时打印jstack日志。 日志级别 Flume提供了如表2所示的日志级别。
当客户端所在主机不是集群中的节点时,需要在客户端所在节点的hosts文件中设置主机名和IP地址映射。主机名和IP地址请保持一一对应。 操作步骤 导出Jar包。
Oozie应用开发样例工程介绍 MRS样例工程获取地址为https://github.com/huaweicloud/huaweicloud-mrs-example,切换分支为与MRS集群相匹配的版本分支,然后下载压缩包到本地后解压,即可获取各组件对应的样例代码工程。
且经常需要按天统计时,建议使用分区表,按天存放数据。
Spark Structured Streaming对接Kafka样例程序(Scala) 功能介绍 使用Structured Streaming,从Kafka中读取广告请求数据、广告展示数据、广告点击数据,实时获取广告有效展示统计数据和广告有效点击统计数据,将统计结果写入kafka
配置描述 登录Manager,选择“集群 > 服务 > Spark2x > 配置”,单击“全部配置”,搜索并修改以下参数。 表1 参数说明 参数 说明 默认值 spark.proxyserver.hash.enabled 是否使用Hash算法连接ProxyServer。
登录FusionInsight Manager,选择“集群 > 待操作集群的名称 > 服务 > HBase > 更多 > 执行HMaster倒换”,完成HMaster主备倒换。
查询的数据是大量的小文件。 查询的数据是较多的大文件。 在beeline/thriftserver模式下使用非spark用户操作。 操作步骤 可对INSERT...SELECT操作做如下的调优操作。