检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Hive Join数据优化 操作场景 使用Join语句时,如果数据量大,可能造成命令执行速度和查询速度慢,此时可进行Join优化。 Join优化可分为以下方式: Map Join Sort Merge Bucket Map Join Join顺序优化 Map Join Hive的Map
配置RSGroup管理RegionServer资源 操作场景 HBase服务的数据节点较多,需要根据不同的业务规模将数据节点资源分配给特定的业务,从而达到资源独占使用的目的。当AZ容灾特性被开启时,为了保证AZ容灾生效,保障业务可靠性,在为RSGroup分配RegionServe
配置RSGroup管理RegionServer资源 操作场景 HBase服务的数据节点较多,需要根据不同的业务规模将数据节点资源分配给特定的业务,从而达到资源独占使用的目的。当AZ容灾特性被开启时,为了保证AZ容灾生效,保障业务可靠性,在为RSGroup分配RegionServe
该服务中所有角色实例正常运行。 故障 至少一个角色实例运行状态为“故障”或被依赖的服务状态不正常。 服务的运行状态为“故障”,会触发告警,请根据告警信息处理。 未知 该服务中所有角色实例状态为“未知”。 正在恢复 后台系统正在尝试自动启动服务。 亚健康 该服务所依赖的服务状态不正常,异常服务的
10 hoodie.parquet.small.file.limit 该值应小于maxFileSize,如果将其设置为0,会关闭此功能。由于批处理中分区中插入记录的数量众多,总会出现小文件。Hudi提供了一个选项,可以通过将对该分区中的插入作为对现有小文件的更新来解决小文件的问题。此
执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出 问题 执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出,日志内容如下。 16/04/19 15:56:22 ERROR
配置MRS集群组件回收站目录清理策略 操作场景 在MRS 3.2.0-LTS.1及后续版本中,MRS集群内组件默认支持数据防误删策略,在基于OBS的Hadoop大数据系统中,客户可以兼容使用Hadoop FS原生的垃圾回收功能。 组件用户删除的文件数据并不会直接被删除,而是会保存
执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出 问题 执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出,日志内容如下。 16/04/19 15:56:22 ERROR
HDFS文件系统中缺少副本块数量。 0 需要复制副本的块总数 NameNode需要复制副本的块总数。 1000 RPC 主NameNode RPC处理平均时间 NameNode RPC处理平均时间。 100ms 主NameNode RPC队列平均时间 NameNode RPC队列平均时间。 200ms 磁盘
配置并导入Flink样例工程 操作场景 Flink针对多个场景提供样例工程,包含Java样例工程和Scala样例工程等,帮助客户快速学习Flink工程。 针对Java和Scala不同语言的工程,其导入方式相同。 以下操作步骤以导入Java样例代码为例。操作流程如图1所示。 图1 导入样例工程流程
导入并配置HBase样例工程 背景信息 获取HBase开发样例工程,将工程导入到IntelliJ IDEA开始样例学习。 前提条件 确保本地PC的时间与集群的时间差要小于5分钟,若无法确定,请联系系统管理员。集群的时间可通过FusionInsight Manager页面右下角查看。
执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出 问题 执行Spark Core应用,尝试收集大量数据到Driver端,当Driver端内存不足时,应用挂起不退出,日志内容如下。 16/04/19 15:56:22 ERROR
Hudi支持Partial Update 本章节内容仅适用于MRS 3.3.1-LTS及之后版本。 该特性允许用户使用Hudi完成部分列更新。用户可以使用同一主键下的最新数据逐一更新每行数据的不同列字段,直到整条数据完整。 场景说明 当前开源社区提供了PartialUpdateA
查询语句中同时有PREWHERE和WHERE,在这种情况下,PREWHERE先于WHERE执行。 合理配置最大并发数。 Clickhouse快是因为采用了并行处理机制,即使一个查询,默认也会用服务器一半的CPU去执行,所以ClickHouse对高并发查询的场景支持的不够。 官方默认的最大并发数是10
Json函数和运算符 Cast to JSON SELECT CAST(9223372036854775807 AS JSON); -- JSON '9223372036854775807' Cast from JSON SELECT CAST(JSON '[1,23,456]'
Load Balancing:表示在Sink Group中所有Sink都处于活跃状态,每个Sink都会从Channel中去获取数据并进行处理,并且保证在运行过程中该Sink Group的所有Sink的负载是均衡的,多用于性能提升场景。 Load Balancing配置样例: client
Infinity (1 row) --删除表 DROP TABLE float_t1; 当小数部分为0时,可以通过cast()转为对应范围的整数处理,小数部分会四舍五入。 示例: select CAST(1000.0001 as INT); _col0 ------- 1000 (1 row)
导入并配置Spark样例工程 操作场景 Spark针对多个场景提供样例工程,包含Java样例工程和Scala样例工程等,帮助客户快速学习Spark工程。 针对Java和Scala不同语言的工程,其导入方式相同。使用Python开发的样例工程不需要导入,直接打开Python文件(*
导入并配置Spark样例工程 操作场景 Spark针对多个场景提供样例工程,包含Java样例工程和Scala样例工程等,帮助客户快速学习Spark工程。 针对Java和Scala不同语言的工程,其导入方式相同。使用Python开发的样例工程不需要导入,直接打开Python文件(*
可与“Map数据块大小”同时配置。参数值必须小于或等于“3000”。 Map数据块大小 配置数据操作的MapReduce任务中启动map所处理的数据大小,单位为MB。参数值必须大于或等于“100”,建议配置值为“1000”。不可与“Map数”同时配置。当使用关系型数据库连接器时,