检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
COLUMNS (tel_phone STRING, email STRING); 建表时配置Hive数据加密 指定表的格式为RCFile(推荐使用)或SequenceFile,加密算法为ARC4Codec。SequenceFile是Hadoop特有的文件格式,RCFile是Hiv
提交作业时,建议使用默认spark on yarn(即5中的--master yarn-client)模式。开源支持spark standalone模式提交,但不推荐使用,该模式资源使用率低,并且使用HTTP,可能存在安全风险。 (可选)在bin目录下调用spark-sql或spark-beeline脚
partition_name; 禁止修改索引列 对索引列的修改会导致现有索引失效,触发重建索引,期间查询数据不准确。 如果业务场景必须修改索引列,推荐用ReplacingMergeTree引擎建表,使用数据写入+去重引擎代替数据更新场景:https://clickhouse.tech/d
FS文件系统,具体请参考配置MRS集群通过IAM委托对接OBS。 存算分离功能使用流程: 配置存算分离集群。 请选择如下其中一种配置即可(推荐使用委托方式)。 通过为MRS集群绑定ECS委托方式访问OBS,避免了AK/SK直接暴露在配置文件中的风险,具体请参考配置MRS集群通过IAM委托对接OBS。
layout.optimize.strategy”为z-order或者hilbert。 适合排序多个字段,例如查询条件中涉及到多个字段。推荐排序字段的个数2到4个。 hilbert多维排序效果比z-order好,但是排序效率没z-order高。 详细配置请参考Hudi常见配置参数。
nt-info.cfg 执行批量刷新“/etc/hosts”文件时,输入的客户端包可以是完整客户端,也可以是仅包含配置文件的客户端软件包,推荐使用仅包含配置文件的客户端软件包。 需要更新“/etc/hosts”文件的主机所配置的用户必须为root用户,否则会刷新失败。 父主题: 管理MRS集群客户端
在yarn-client模式下,Driver部署在Client端,在Client端启动。yarn-client模式下,不兼容老版本的客户端。推荐使用yarn-cluster模式。 客户端向ResourceManager发送Spark应用提交请求,ResourceManager为其返
为MRS集群选择企业项目 通过成本标签进行成本分配 标签是华为云为了标识云资源,按各种维度(例如用途、所有者或环境)对云资源进行分类的标记。推荐企业使用预定义标签进行成本归集,具体流程如下: 图2 为MRS集群添加标签 详细介绍请参见通过成本标签维度查看成本分配。 使用成本单元进行成本分配
COALESCE可以将异常的空值转为0或者空,以下情况会被try捕获: 分母为0 错误的cast操作或者函数入参 数字超过了定义长度 不推荐使用,应该明确以上异常,做数据预处理 示例: 假设有以下表,字段origin_zip中包含了一些无效数据: -- 创建表 create table
layout.optimize.strategy”为z-order或者hilbert。 适合排序多个字段,例如查询条件中涉及到多个字段。推荐排序字段的个数2到4个。 hilbert多维排序效果比z-order好,但是排序效率没z-order高。 详细配置请参考Hudi常见配置参数。
2020年9月 序号 功能名称 功能描述 阶段 相关文档 1 新增V2创建集群接口 V2接口功能更强大、操作更便捷,在接口功能相同的情况下,推荐您优先使用V2接口。 商用 创建集群 2 支持多种异构虚拟机规格 MRS集群支持x86/ARM混合部署,支持弹性云服务器(ECS)和裸金属服务器(BMS)混合部署
能不再被还原。如果恢复作业失败或被取消,有可能造成之前的数据损坏且无法访问。这种情况下,只能通过再次执行恢复操作,并等待作业完成。因此,不推荐使用覆盖的方式恢复数据,除非确认当前数据已不再使用。 数据恢复原理介绍 Doris数据恢复操作需指定一个远端仓库中已存在的备份数据,再将备
在发出最大请求数后,连接将关闭。定期关闭连接对于释放每个连接的内存分配是必要的。因此,使用过高的最大请求数可能会导致过多的内存使用,因此不推荐使用。 默认值:1000 取值范围:[1,100000] keepalive_time 限制可以通过一个保持活动连接处理请求的最长时间。达
“安全级别”和“Facility”各项对应的数值请参考表2。 Facility local use 0 (local0) 设置产生日志的模块。可选项参考表2,推荐使用默认值“local use 0 (local0)”。 标识符 FusionInsight Manager 设置产品标识。 标识符可以包含字母、数字、下划线、
API接口 功能 说明 Scala API 提供Scala语言的API,提供过滤、join、窗口、聚合等数据处理能力。由于Scala语言的简洁易懂,推荐用户使用Scala接口进行程序开发。 Java API 提供Java语言的API,提供过滤、join、窗口、聚合等数据处理能力。 基本概念
下面代码片段仅为演示,具体代码参见com.huawei.bigdata.spark.examples.JavaDstreamKafkaWriter: Spark版本升级后,推荐使用新接口createDirectStream,老接口createStream仍然存在,但是性能和稳定性差,建议不要使用老接口开发应用程序。
方法一:预留桶数,如使用非分区表则需通过预估较长一段时间内的数据增量来预先增加桶数,缺点是随着数据的增长,文件依然会持续膨胀; 方法二:大粒度分区(推荐),如果使用分区表则需要根据数据增长情况来计算,例如使用年分区,这种方式相对麻烦些但是多年后表无需重新导入。 方法三:数据老化,按照业务逻
from KafkaSource; 在作业管理界面右边的基础参数中勾选开启CheckPoint,“时间间隔(ms)”根据实际需求填写合适的值,推荐配置的时间间隔取值范围为30000~60000。 单击“语义校验”对输入内容进行语义校验,单击“保存”,单击“提交”提交作业。 Kafka侧操作。
run模式,推荐使用export HBASE_CONF_DIR=hbase的配置目录,例如:export HBASE_CONF_DIR=/opt/hbaseconf。 如果使用Flink run-application模式,则有如下两种方式。 在建表语句中添加如下配置(推荐) 表1 相关配置
API接口 功能 说明 Scala API 提供Scala语言的API,提供过滤、join、窗口、聚合等数据处理能力。由于Scala语言的简洁易懂,推荐用户使用Scala接口进行程序开发。 Java API 提供Java语言的API,提供过滤、join、窗口、聚合等数据处理能力。 Flink基本概念