检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置矢量化读取ORC数据 配置场景 ORC文件格式是一种Hadoop生态圈中的列式存储格式,它最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet文件格式类似,它并不是一个单纯的列式存储格式,仍然是首先根据行组分割整个表,在每一个行组内按列进行存储,
配置矢量化读取ORC数据 配置场景 ORC文件格式是一种Hadoop生态圈中的列式存储格式,它最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet文件格式类似,它并不是一个单纯的列式存储格式,仍然是首先根据行组分割整个表,在每一个行组内按列进行存储,
ClickHouse性能调优 数据表报错Too many parts解决方法 加速Merge操作 加速TTL操作 父主题: 使用ClickHouse
ClickHouse性能调优 ClickHouse数据表分区过多调优 ClickHouse加速Merge调优 ClickHouse加速TTL操作调优 父主题: 使用ClickHouse
败。 原因分析 用户MRS集群选的是企业项目A(包含MRS FULLACCESS和ECS FULLACCESS权限)。 VPC选的是企业项目B。 安全组选的是企业项目A。 IAM这边加入的组没有任何权限设置。 经过分析用户的VPC企业项目B里缺少vpc readonly权限导致了该报错的发生。
数据表分区分配不合理,导致产生太多的区分,需要重新划分分区。 如果没有触发Merge,或者Merge较慢,需要调整参数加快Merge。 加速Merge,需要调整如下参数,请参考加速Merge操作: 配置项 参考值 max_threads CPU核数*2 background_pool_size CPU核数
注册一个全类名为“com.xxx.bigdata.iotdb.UDTFExample”的UDF可以按如下流程进行: 将项目打成Jar包,如果使用Maven管理项目,可参考以下章节的“构建Jar包”部分: 开启Kerberos认证的集群请参考注册UDF。 关闭Kerberos认证的集群请参考注册UDF。
HBase与其他组件的关系 HBase和HDFS的关系 HDFS是Apache的Hadoop项目的子项目,HBase利用Hadoop HDFS作为其文件存储系统。HBase位于结构化存储层,Hadoop HDFS为HBase提供了高可靠性的底层存储支持。除了HBase产生的一些日
HDFS与其他组件的关系 HDFS和HBase的关系 HDFS是Apache的Hadoop项目的子项目,HBase利用Hadoop HDFS作为其文件存储系统。HBase位于结构化存储层,Hadoop HDFS为HBase提供了高可靠性的底层存储支持。除了HBase产生的一些日志
ache的Hadoop项目的子项目,它是一个基于Hadoop HDFS分布式并行计算框架。Hive进行数据分析时,会将用户提交的HQL语句解析成相应的MapReduce任务并提交MapReduce执行。 Hive与Tez的关系 Tez是Apache的开源项目,它是一个支持有向无环
压力,但当缓存的表较大或者缓存表数量较多时,将不可避免地影响executor的稳定性。 此时的最佳实践是,当不需要将表cache来实现查询加速时,应及时将表进行uncache以释放内存。可以执行命令uncache table table_name来uncache表。 被cache的表也可以在Spark
压力,但当缓存的表较大或者缓存表数量较多时,将不可避免地影响executor的稳定性。 此时的最佳实践是,当不需要将表cache来实现查询加速时,应及时将表进行uncache以释放内存。可以执行命令uncache table table_name来uncache表。 被cache的表也可以在Spark
Project”,将该项目添加为Maven Project。若“pom.xml”图标如图9所示,可直接进行下一步骤操作。 图9 样例项目已作为maven项目导入 图10 Add as Maven Project 此时IDEA可将该项目识别为Maven项目。 图11 样例项目作为maven项目在IDEA中显示
在MRS集群中新增并提交一个作业。API的调用方法请参见如何调用API。 约束限制 集群已创建成功并处于“运行中”。 已获取待创建集群区域的项目ID,请参考获取项目ID获取。 已获取集群ID,即创建集群成功后返回结果中的“cluster_id” 或参考获取集群ID获取。 IAM用户已同步完成
当作业提交后未执行完成时,手动终止作业。API的调用方法请参见如何调用API。 约束限制 集群已创建成功并处于“运行中”。 已获取待创建集群区域的项目ID,请参考获取项目ID获取。 已获取集群ID,即创建集群成功后返回结果中的“cluster_id” 或参考获取集群ID获取。 已获取作业ID,即作
C。创建子网请参考查询子网列表和创建子网。 已获取待创建集群区域的区域和可用区信息,具体请参考终端节点。 已获取待创建集群区域的项目ID,请参考获取项目ID获取。 已确定待创建集群的版本及版本支持的组件信息,请参见MRS组件版本一览表。 该示例创建出来的是按需购买的分析集群。 操作步骤
缩容Master节点。API的调用方法请参见如何调用API。 约束限制 集群已创建成功并处于“运行中”。 已获取待创建集群区域的项目ID,请参考获取项目ID获取。 已获取集群ID,即创建集群成功后返回结果中的“cluster_id” 或参考获取集群ID获取。 该示例以扩容Core节点为例。
缩容Master节点。API的调用方法请参见如何调用API。 约束限制 集群已创建成功并处于“运行中”。 已获取待创建集群区域的项目ID,请参考获取项目ID获取。 已获取集群ID,即创建集群成功后返回结果中的“cluster_id” 或参考获取集群ID获取。 该示例以缩容Core节点为例。
量数据的插入,适当增大每次插入的时间间隔。 如果没有触发Merge,或者Merge较慢,需要调整参数加快Merge。 加速Merge,需要调整如下参数,请参考加速Merge操作: 配置项 参考值 max_threads CPU核数*2 background_pool_size CPU核数
之间的数据访问鸿沟。为了解决这个问题,提出MemArts分布式客户端缓存,MemArts部署在计算侧的VM中,通过智能预取OBS上的数据来加速计算任务的执行。 图1 MemArtsCC结构图 表1 MemArtsCC结构图说明 名称 说明 CC SDK 提供OBSA(OBSA,hadoop客户端插件)