检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
es/flux-examples”目录下的“jdbc.properties”文件,根据实际环境信息修改相关参数。 #配置JDBC服务端IP地址 JDBC_SERVER_NAME= #配置JDBC服务端端口 JDBC_PORT_NUM= #配置JDBC登录用户名 JDBC_USER_NAME=
不建议频繁的数据delete修改,将要删除的数据攒批,偶尔进行批量删除,且需要带上条件,提升系统稳定性和删除效率。 大量数据排序(5亿以上)后返回部分数据,建议先减少数据范围再执行排序,否则大量排序会影响性能。例如: 将from table order by datatime desc limit 10优化为from
the interception limitation (2) 用户也可通过日志查询SQL防御详情,HetuEngine SQL防御日志路径地址为“hdfs://hacluster/hetuserverhistory/租户/coordinator/application_ID/co
实例”,勾选3修改配置的FE节点,选择“更多 > 重启实例”重启FE实例,其他实例依旧停止状态不做操作。 观察FE启动后状态,启动成功后,在浏览器中连接此FE,例如,访问地址为“http://192.168.67.27:29980”。 登录FE WebUI界面后,单击“Playground”,选择“defaul
主机名和IP地址映射。主机名和IP地址请保持一一对应。 未安装客户端时: Linux环境已安装JDK,版本号需要和IDEA导出Jar包使用的JDK版本一致。 当Linux环境所在主机不是集群中的节点时,需要在Linux环境所在节点的hosts文件中设置主机名和IP地址映射。主机名和IP地址请保持一一对应。
address STRING) -- 一个表可以拥有一个或多个分区,每个分区以文件夹的形式单独存在表文件夹的目录下。对分区内数据进行查询,可缩小查询范围,加快数据的检索速度,还可对数据按照一定的条件进行管理。 -- 使用关键字PARTITIONED BY指定分区列名及数据类型 PARTITIONED
FusionInsight_Cluster_1_Services_ClientConfig scp Hive/config/* root@客户端节点IP地址:/opt/client/src/main/resources 准备MRS应用开发用户时获取的keytab文件也放置于该目录下,主要配置文件说明如表5所示。
stored as orc TBLPROPERTIES("orc.compress"="ZSTD_JNI"); ZSTD_JNI的压缩级别的取值范围为1~19,数值越高压缩比越高,相对压缩读写速率会变慢;数值越低压缩比越低,相对读写速率会变快,缺省默认值为“6”。建表时设置表属性参数“orc
当集群的ResourceManager以HA方式部署时,客户端使用的“yarn-site.xml”需要配置所有ResourceManager地址。客户端(包括ApplicationMaster和NodeManager)会以轮询的方式寻找Active状态的ResourceManage
SDK”为“SDKs”中添加的JDK。 图6 修改“Module SDK” 单击“Apply”,单击“OK”。 配置Maven。 参考配置华为开源镜像仓章节描述,增加开源镜像仓地址等配置信息到本地Maven的“setting.xml”配置文件。 修改完成后,在IntelliJ IDEA选择“File > Settings
CarbonData暂不支持设置列是否允许为空、默认值以及主键。 table_blocksize CarbonData表使用的数据文件的block大小,默认值为1024,取值范围为1~2048,单位为MB。 如果“table_blocksize”值太小,数据加载时将生成过多的小数据文件,可能会影响HDFS的使用性能。
blockmanagement.AvailableSpaceBlockPlacementPolicy)”,经过测试验证,在该测试结果中,修改前后,HDFS写文件性能影响范围在3%以内。 NameNode默认的副本存储策略为: 第一副本:存放到客户端所在节点。 第二副本:远端机架的数据节点。 第三副本:存放到客户端所在节点的相同机架的不同节点。
Manager系统,选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 配置”,单击“全部配置”,搜索以下参数。 参数 说明 默认值 取值范围 spark.sql.orc.enableVectorizedReader 指定是否支持矢量化方式读取ORC格式的数据,默认为true。 true
address STRING) -- 一个表可以拥有一个或多个分区,每个分区以文件夹的形式单独存在表文件夹的目录下。对分区内数据进行查询,可缩小查询范围,加快数据的检索速度,还可对数据按照一定的条件进行管理。 -- 使用关键字PARTITIONED BY指定分区列名及数据类型 PARTITIONED
blockmanagement.AvailableSpaceBlockPlacementPolicy)”,经过测试验证,在该测试结果中,修改前后,HDFS写文件性能影响范围在3%以内。 NameNode默认的副本存储策略为: 第一副本:存放到客户端所在节点。 第二副本:远端机架的数据节点。 第三副本:存放到客户端所在节点的相同机架的不同节点。
zk-state-store.num-fetch-threads 启用异步恢复功能,增加工作线程的数量可以加快恢复ZK中保存的任务信息的速度,取值范围大于0。 20 NodeManager Restart特性配置如下。 表2 NodeManager Restart参数配置 参数 描述 默认值
登录FusionInsight Manager系统,选择“集群 > 服务 > Spark2x > 配置”,单击“全部配置”,搜索以下参数。 参数 说明 默认值 取值范围 spark.sql.orc.enableVectorizedReader 指定是否支持矢量化方式读取ORC格式的数据,默认为true。 true
FusionInsight_Cluster_1_Services_ClientConfig scp HetuEngine/config/* root@客户端节点IP地址:/opt/client/conf 主要配置文件说明如表4所示(根据需要获取所需文件)。 表4 配置文件 文件名称 作用 hdfs-site
FusionInsight_Cluster_1_Services_ClientConfig scp Spark2x/config/* root@客户端节点IP地址:/opt/client/conf 准备MRS应用开发用户时获取的keytab文件也放置于该目录下,主要配置文件说明如表3所示。 表3 配置文件
此列顺序对于压缩效率起重要作用。如果低cardinality维度位于左边,那么排序后的数据分区范围较小,压缩效率较高。如果高cardinality维度位于左边,那么排序后的数据分区范围较大,压缩效率较低。 内存调优 CarbonData为内存调优提供了一个机制,其中数据加载会依赖