检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
COLUMNS (tel_phone STRING, email STRING); 建表时配置Hive数据加密 指定表的格式为RCFile(推荐使用)或SequenceFile,加密算法为ARC4Codec。SequenceFile是Hadoop特有的文件格式,RCFile是Hiv
提交作业时,建议使用默认spark on yarn(即5中的--master yarn-client)模式。开源支持spark standalone模式提交,但不推荐使用,该模式资源使用率低,并且使用HTTP,可能存在安全风险。 (可选)在bin目录下调用spark-sql或spark-beeline脚
vaExample”文件夹中的“pom.xml”文件,单击“OK”。 确认后续配置,单击“Next”;如无特殊需求,使用默认值即可。 选择推荐的JDK版本,单击“Finish”完成导入。 工程导入完成后,修改样例工程的“conf”目录下的“clickhouse-example.p
ample”文件夹中的“pom.xml”文件,单击“OK”。 确认后续配置,单击“Next”,如无特殊需求,相关配置使用默认值即可。 选择推荐的JDK版本,单击“Finish”完成样例工程导入。 工程导入完成后,修改样例工程的“conf”目录下的“clickhouse-example
为MRS集群选择企业项目 通过成本标签进行成本分配 标签是华为云为了标识云资源,按各种维度(例如用途、所有者或环境)对云资源进行分类的标记。推荐企业使用预定义标签进行成本归集,具体流程如下: 图2 为MRS集群添加标签 详细介绍请参见通过成本标签维度查看成本分配。 使用成本单元进行成本分配
COALESCE可以将异常的空值转为0或者空,以下情况会被try捕获: 分母为0 错误的cast操作或者函数入参 数字超过了定义长度 不推荐使用,应该明确以上异常,做数据预处理 示例: 假设有以下表,字段origin_zip中包含了一些无效数据: -- 创建表 create table
huaweicloud.com/),查看网站是否能正常访问。如果访问异常,请先开通本地网络。 确认当前开发工具是否开启代理。下载jar包前需要确保开发工具代理关闭。 比如以2020.2版本的IntelliJ IDEA开发工具为例,单击“File > Settings > Appearance
在yarn-client模式下,Driver部署在Client端,在Client端启动。yarn-client模式下,不兼容老版本的客户端。推荐使用yarn-cluster模式。 客户端向ResourceManager发送Spark应用提交请求,ResourceManager为其返
layout.optimize.strategy”为z-order或者hilbert。 适合排序多个字段,例如查询条件中涉及到多个字段。推荐排序字段的个数2到4个。 hilbert多维排序效果比z-order好,但是排序效率没z-order高。 详细配置请参考Hudi常见配置参数。
委托名称:填写委托名称,例如:agency-clickhouse-to-OBS。 委托类型:选择“普通账号”。 委托的账号:填写本用户的云账号,即使用手机号开通的账号,不能是联邦用户或者IAM用户。 持续时间:选择“永久”。 在弹出授权页面的搜索框内,搜索3新建的自定义策略,并勾选该策略,例
在日志中输出上传kafka成功与失败数据的数量统计的时间间隔,单位为秒 60 kafka.bootstrap.servers 是 kafka代理节点地址,配置形式为HOST:PORT[,HOST:PORT] - kafka_topic 否 写入kafka的topic名称 maxwell
layout.optimize.strategy”为z-order或者hilbert。 适合排序多个字段,例如查询条件中涉及到多个字段。推荐排序字段的个数2到4个。 hilbert多维排序效果比z-order好,但是排序效率没z-order高。 详细配置请参考Hudi常见配置参数。
FE实例IP地址可通过登录MRS集群的Manager界面,单击“集群 > 服务 > Doris > 实例”,查看任一FE实例的IP地址。 用户也可以使用MySQL连接软件或者Doris WebUI界面连接数据库。 执行以下命令创建数据库: create database if not exists example_db;
加载到HBase新生成的单个HFile文件大小接近HDFS block大小。 步骤1:创建MRS离线查询集群 进入购买MRS集群页面。 选择“快速购买”,填写配置参数。 表1 软件配置 参数项 参数说明 取值 区域 不同区域的云服务产品之间内网互不相通。请就近选择靠近您业务的区域,可减少网络时延,提高访问速度。 华北-北京四
在日志中输出上传kafka成功与失败数据的数量统计的时间间隔,单位为秒 60 kafka.bootstrap.servers 是 kafka代理节点地址,配置形式为HOST:PORT[,HOST:PORT] - kafka_topic 否 写入kafka的topic名称 maxwell
下面代码片段仅为演示,具体代码参见com.huawei.bigdata.spark.examples.JavaDstreamKafkaWriter: Spark版本升级后,推荐使用新接口createDirectStream,老接口createStream仍然存在,但是性能和稳定性差,建议不要使用老接口开发应用程序。
方法一:预留桶数,如使用非分区表则需通过预估较长一段时间内的数据增量来预先增加桶数,缺点是随着数据的增长,文件依然会持续膨胀; 方法二:大粒度分区(推荐),如果使用分区表则需要根据数据增长情况来计算,例如使用年分区,这种方式相对麻烦些但是多年后表无需重新导入。 方法三:数据老化,按照业务逻
API接口 功能 说明 Scala API 提供Scala语言的API,提供过滤、join、窗口、聚合等数据处理能力。由于Scala语言的简洁易懂,推荐用户使用Scala接口进行程序开发。 Java API 提供Java语言的API,提供过滤、join、窗口、聚合等数据处理能力。 基本概念
run模式,推荐使用export HBASE_CONF_DIR=hbase的配置目录,例如:export HBASE_CONF_DIR=/opt/hbaseconf。 如果使用Flink run-application模式,则有如下两种方式。 在建表语句中添加如下配置(推荐) 表1 相关配置
“安全级别”和“Facility”各项对应的数值请参考表2。 Facility local use 0 (local0) 设置产生日志的模块。可选项参考表2,推荐使用默认值“local use 0 (local0)”。 标识符 FusionInsight Manager 设置产品标识。 标识符可以包含字母、数字、下划线、