检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置DBService HA模块的SSL 操作场景 本任务将对安装DBService的集群进行手动配置DBService服务HA模块SSL的操作。 执行该操作后,如需还原,请执行还原DBService HA模块的SSL配置。 前提条件 MRS集群内主、备DBService节点的“
还原DBService HA模块的SSL配置 操作场景 本任务将对安装DBService的集群进行还原DBService服务HA模块SSL的操作。 前提条件 DBService服务HA模块已开启SSL配置。 检查DBService服务HA模块是否开启SSL配置: 查看“$BIGD
执行distcp命令报错如何处理 问题 为何distcp命令在安全集群上执行失败并发生异常? 客户端出现异常: Invalid arguments:Unexpected end of file from server 服务器端出现异常: javax.net.ssl.SSLException:Unrecognized
配置Flink通过IAM委托访问OBS 参考配置MRS集群通过IAM委托对接OBS完成存算分离集群配置后,即可在Flink客户端访问OBS并行文件系统并运行作业。 Flink对接OBS 使用安装客户端的用户登录Flink客户端安装节点。 执行如下命令初始化环境变量。 source
签发Flink证书样例 将该样例代码生成generate_keystore.sh脚本,放置在Flink客户端的bin目录下。 #!/bin/bash KEYTOOL=${JAVA_HOME}/bin/keytool KEYSTOREPATH="$FLINK_HOME/conf/"
Hive支持ZSTD压缩格式 ZSTD(全称为Zstandard)是一种开源的无损数据压缩算法,其压缩性能和压缩比均优于当前Hadoop支持的其他压缩格式,本特性使得Hive支持ZSTD压缩格式的表。Hive支持基于ZSTD压缩的存储格式有常见的ORC、RCFile、TextFi
需要重新设计key,以更小粒度的key使得task大小合理化。 修改并行度。 优化数据结构 把数据按列存放,读取数据时就可以只扫描需要的列。 使用Hash Shuffle时,通过设置spark.shuffle.consolidateFiles为true,来合并shuffle中间文件,减少s
、DIFF、FAST_DIFF和ROW_INDEX_V1,其中NONE表示不使用编码。另外,HBase还支持使用压缩算法对HFile文件进行压缩,默认支持的压缩算法有:NONE、GZ、SNAPPY和ZSTD,其中NONE表示HFile不压缩。 这两种方式都是作用在HBase的列簇上,可以同时使用,也可以单独使用。
、DIFF、FAST_DIFF和ROW_INDEX_V1,其中NONE表示不使用编码。另外,HBase还支持使用压缩算法对HFile文件进行压缩,默认支持的压缩算法有:NONE、GZ、SNAPPY和ZSTD,其中NONE表示HFile不压缩。 这两种方式都是作用在HBase的列簇上,可以同时使用,也可以单独使用。
近一个月的数据更新占比最大,可以按照月份创建分区;近一天内的数据更新占比大,可以按照天进行分区。 采用Bucket索引,写入是通过主键Hash打散的,数据会均匀的写入到分区下每个桶。因为各个分区的数据量是会有波动的,分区下桶的个数设计一般会按照最大分区数据量计算,这样会出现越细粒度的分区,桶的个数会冗余越多。例如:
let server上,多个副本中有一个是leader tablet;所有的副本都可以读,但是写操作只有leader可以,写操作利用一致性算法(Raft)。 Tablet server Tablet server是数据存储节点,存放tablet并且响应client请求,一个tablet
要生成的加密密钥的长度,支持设置为“192”或“256”。 256 spark.network.crypto.keyFactoryAlgorithm 生成加密密钥时使用的算法。 PBKDF2WithHmacSHA1 spark.io.encryption.enabled 启用本地磁盘I/O加密。 安全模式:true
1千万~2亿以内数据为了方便可以不设置分区(Doris内部有一个默认分区),直接用分桶策略即可。 如果分桶字段存在30%以上的数据倾斜,则禁止使用Hash分桶策略,改为使用Random分桶策略,相关命令为: Create table ... DISTRIBUTED BY RANDOM BUCKETS
GROUP BY day, MOD(HASH_CODE(user_id), 1024) ) GROUP BY day 多流join场景建议join字段设置为主键 如果join字段不为主键,会导致Flink shuffle task按照hash进行数据处理,导致在Flink中无法保序。同时状态后端中同一个join
sql.hbase.HBaseSQLParser spark.shuffle.manager 处理数据的方式。有两种实现方式可用:sort和hash。sort shuffle对内存的使用率更高,是Spark 1.2及后续版本的默认选项。 SORT spark.deploy.zookeeper
在MRS集群外客户端提交不了Oozie任务,或者两个小时才提交成功。 原因分析 通过后台日志看到一些Java安全随机数的日志,在JDK中,SecureRandom算法底层依赖操作系统提供的随机数据;在Linux中,与之相关的是“/dev/random”和“/dev/urandom”。当熵池为空时,来自“
应用场景 本场景通过基于Unique模型表查询符合条件的数据。基于Unique模型表聚合查询,支持MIN,MAX,SUM,REPLACE四种聚合算法。 方案架构 Doris支持海量数据的亚秒级查询,支持单表数据的聚合查询和多表关联查询。Doris不同的表引擎,适合不同的业务场景,可以根据业务特点选择不同的表格式。
insertAll(ExternalSorter.scala:217) at org.apache.spark.shuffle.hash.HashShuffleReader.read(HashShuffleReader.scala:102) at org.apache
MRS 1.9.3 Ranger证书如何更新? 本指导以MRS 1.9.3版本为例,其他版本请替换成具体集群版本号。参考本指导完成证书更新后,请手动清除证书文件失效或证书文件即将过期告警。 Ranger证书更新后,证书有效期为10年。 Ranger证书过期后,Ranger WEB
列和加密算法。当使用insert语句向表中插入数据时,即可实现将对应列的数据加密。只支持对存储在HDFS上的TextFile和SequenceFile文件格式的Hive表进行列加密,不支持视图以及Hive over HBase场景。 Hive列加密机制目前支持的加密算法有两种,在建表时指定: