检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
提交作业时,建议使用默认spark on yarn(即5中的--master yarn-client)模式。开源支持spark standalone模式提交,但不推荐使用,该模式资源使用率低,并且使用HTTP,可能存在安全风险。 (可选)在bin目录下调用spark-sql或spark-beeline脚
在yarn-client模式下,Driver部署在Client端,在Client端启动。yarn-client模式下,不兼容老版本的客户端。推荐使用yarn-cluster模式。 客户端向ResourceManager发送Spark应用提交请求,ResourceManager为其返
效。使得Spark Streaming和Kafka可以很好地整合在一起。总体来说,这些特性使得流处理管道拥有高容错性、高效性及易用性,因此推荐使用Direct Streaming方式处理数据。 在一个Spark Streaming应用开始时(也就是Driver开始时),相关的St
layout.optimize.strategy”为z-order或者hilbert。 适合排序多个字段,例如查询条件中涉及到多个字段。推荐排序字段的个数2到4个。 hilbert多维排序效果比z-order好,但是排序效率没z-order高。 详细配置请参考Hudi常见配置参数。
为MRS集群选择企业项目 通过成本标签进行成本分配 标签是华为云为了标识云资源,按各种维度(例如用途、所有者或环境)对云资源进行分类的标记。推荐企业使用预定义标签进行成本归集,具体流程如下: 图2 为MRS集群添加标签 详细介绍请参见通过成本标签维度查看成本分配。 使用成本单元进行成本分配
COALESCE可以将异常的空值转为0或者空,以下情况会被try捕获: 分母为0 错误的cast操作或者函数入参 数字超过了定义长度 不推荐使用,应该明确以上异常,做数据预处理 示例: 假设有以下表,字段origin_zip中包含了一些无效数据: -- 创建表 create table
nt-info.cfg 执行批量刷新“/etc/hosts”文件时,输入的客户端包可以是完整客户端,也可以是仅包含配置文件的客户端软件包,推荐使用仅包含配置文件的客户端软件包。 需要更新“/etc/hosts”文件的主机所配置的用户必须为root用户,否则会刷新失败。 父主题: 管理MRS集群客户端
待创建的MRS集群版本类型。 集群版本 MRS 3.2.0-LTS.1 待创建的MRS集群版本,不同版本所包含的开源组件版本及功能特性可能不同,推荐选择最新版本。 组件选择 Hadoop分析集群 基于系统预置的集群模板选择要购买的集群组件。 可用区 可用区1 选择集群工作区域下关联的可用区。
API接口 功能 说明 Scala API 提供Scala语言的API,提供过滤、join、窗口、聚合等数据处理能力。由于Scala语言的简洁易懂,推荐用户使用Scala接口进行程序开发。 Java API 提供Java语言的API,提供过滤、join、窗口、聚合等数据处理能力。 基本概念
下面代码片段仅为演示,具体代码参见com.huawei.bigdata.spark.examples.JavaDstreamKafkaWriter: Spark版本升级后,推荐使用新接口createDirectStream,老接口createStream仍然存在,但是性能和稳定性差,建议不要使用老接口开发应用程序。
方法一:预留桶数,如使用非分区表则需通过预估较长一段时间内的数据增量来预先增加桶数,缺点是随着数据的增长,文件依然会持续膨胀; 方法二:大粒度分区(推荐),如果使用分区表则需要根据数据增长情况来计算,例如使用年分区,这种方式相对麻烦些但是多年后表无需重新导入。 方法三:数据老化,按照业务逻
能不再被还原。如果恢复作业失败或被取消,有可能造成之前的数据损坏且无法访问。这种情况下,只能通过再次执行恢复操作,并等待作业完成。因此,不推荐使用覆盖的方式恢复数据,除非确认当前数据已不再使用。 数据恢复原理介绍 Doris数据恢复操作需指定一个远端仓库中已存在的备份数据,再将备
在发出最大请求数后,连接将关闭。定期关闭连接对于释放每个连接的内存分配是必要的。因此,使用过高的最大请求数可能会导致过多的内存使用,因此不推荐使用。 默认值:1000 取值范围:[1,100000] keepalive_time 限制可以通过一个保持活动连接处理请求的最长时间。达
“安全级别”和“Facility”各项对应的数值请参考表2。 Facility local use 0 (local0) 设置产生日志的模块。可选项参考表2,推荐使用默认值“local use 0 (local0)”。 标识符 FusionInsight Manager 设置产品标识。 标识符可以包含字母、数字、下划线、
from KafkaSource; 在作业管理界面右边的基础参数中勾选开启CheckPoint,“时间间隔(ms)”根据实际需求填写合适的值,推荐配置的时间间隔取值范围为30000~60000。 单击“语义校验”对输入内容进行语义校验,单击“保存”,单击“提交”提交作业。 Kafka侧操作。
研、成熟稳定的特性和功能,带来性能及稳定性的提升。 LTS版 集群版本 MRS集群的版本,不同版本所包含的开源组件版本及功能特性可能不同,推荐选择最新版本。 版本详细包含的组件详细可参考MRS组件版本一览表。 MRS 3.2.0-LTS.1 组件选择 基于系统预置的集群模板选择要购买的集群组件。
Storm应用开发简介 目标读者 本文档提供给需要Storm二次开发的用户使用。本指南主要适用于具备Java开发经验的开发人员。 简介 Storm是一个分布式的、可靠的、容错的数据流处理系统。它会把工作任务委托给不同类型的组件,每个组件负责处理一项简单特定的任务。Storm的目标
API接口 功能 说明 Scala API 提供Scala语言的API,提供过滤、join、窗口、聚合等数据处理能力。由于Scala语言的简洁易懂,推荐用户使用Scala接口进行程序开发。 Java API 提供Java语言的API,提供过滤、join、窗口、聚合等数据处理能力。 Flink基本概念
Unique模型针对需要唯一主键约束的场景,可以保证主键唯一性约束。但是无法利用ROLLUP等预聚合带来的查询优势。 对于聚合查询有较高性能需求的用户,推荐使用写时合并实现。 Unique模型仅支持整行更新,如果用户既需要唯一主键约束,又需要更新部分列(例如将多张源表导入到一张Doris表的场
ALM-12180 磁盘卡IO 告警解释 MRS 3.3.0及之后版本、MRS 3.1.0.0.10/3.1.5.0.3及之后补丁版本: 对于HDD盘,满足以下任意条件时触发告警: 系统默认每3秒采集一次数据,在30秒内至少7个采集周期的svctm时延达到6秒。 系统默认每3秒采