检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
hive.manageFilesourcePartitions 是否启用Metastore分区管理(包括数据源表和转换的Hive表)。 true:启用Metastore分区管理,即数据源表存储分区在Hive中,并在查询语句中使用Metastore修剪分区。 false:不启用Metastore分区管理。
CarbonData表操作并发语法说明 DDL和DML中的操作,执行前,需要获取对应的锁,各操作需要获取锁的情况见表1 操作获取锁一览表,√表示需要获取该锁,一个操作仅在获取到所有需要获取的锁后,才能继续执行。 任意两个操作是否可以并发执行,可以通过如下方法确定:表1两行代表两个
cleanupDBService.log 卸载日志(需执行DBService卸载日志操作) componentUserManager.log 数据库用户添加删除操作日志 (需添加依赖DBService的服务) install.log 安装日志 preStartDBService.log
WebUI界面的用户登录FusionInsight Manager。 配置Yarn参数指定scheduler处理PlacementConstraints。 选择“集群 > 服务 > Yarn > 配置 > 全部配置”,搜索参数“yarn.resourcemanager.placement-constraints
只能由英文字母和数字组成,且长度为[1-64]个字符。 默认取值: 不涉及 cluster_id 是 String 参数解释: 集群ID。如果指定集群ID,则获取该集群做过补丁更新的最新版本元数据。获取方法,请参见获取集群ID。 约束限制: 不涉及 取值范围: 只能由英文字母、数字以及“_”和“-”组成,且长度为[1-64]个字符。
SortMergeJoin、SortMergeOuterJoin 基于有序数据的等值连接。该功能默认对数据调用外部排序进行排序,然后再进行等值连接,因此内存不足时在排序阶段会将数据溢出到磁盘,在连接阶段因数据有序,在内存中只保留当前相同key的数据,使用的内存较小。 配置描述 参数入口: 在应用提交时
Spark常用API介绍 Spark Java API接口介绍 Spark Scala API接口介绍 Spark Python API接口介绍 Spark client CLI介绍 Spark JDBCServer接口介绍 父主题: Spark应用开发常见问题
SQL和DataFrame调优 Spark SQL join优化 INSERT...SELECT操作调优 父主题: Spark应用调优
Spark同时访问两个HBase样例程序 Spark同时访问两个HBase样例程序开发思路 Spark同时访问两个HBase样例程序(Scala) 父主题: 开发Spark应用
DELETE SEGMENT by DATE 命令功能 DELETE SEGMENT by DATE命令用于通过加载日期删除CarbonData segment,在特定日期之前创建的segment将被删除。 命令格式 DELETE FROM TABLE db_name.table_name
添加作业。 当IAM子账号所在组同时有MRS FullAccess、MRS ReadOnlyAccess、MRS Administrator三种权限。其中MRS FullAccess、MRS ReadOnlyAccess是细粒度的权限。MRS Administrator是RBAC
Spark Structured Streaming状态操作样例程序 Spark Structured Streaming状态操作样例程序开发思路 Spark Structured Streaming状态操作样例程序(Scala) 父主题: 开发Spark应用
Hudi自定义配置项样例程序 HoodieDeltaStreamer 自定义排序器 父主题: 开发Spark应用
Spark Structured Streaming对接Kafka样例程序 Spark Structured Streaming对接Kafka样例程序开发思路 Spark Structured Streaming对接Kafka样例程序(Scala) 父主题: 开发Spark应用
Spark Structured Streaming状态操作样例程序 Spark Structured Streaming状态操作样例程序开发思路 Spark Structured Streaming状态操作样例程序(Scala) 父主题: 开发Spark应用
导入并配置Hive样例工程 导入并配置Hive JDBC/HCatalog样例工程 配置Hive Python样例工程 配置Hive Python3样例工程 父主题: 准备Hive应用开发环境
导入并配置Hive样例工程 导入并配置Hive JDBC/HCatalog样例工程 配置Hive Python样例工程 配置Hive Python3样例工程 父主题: 准备Hive应用开发环境
登录Zookeeper客户端所在节点。 cd 客户端安装目录 source bigdata_env kinit 组件业务用户(未开启Kerberos认证集群跳过此步骤) 执行以下命令修改文件。 vim 客户端安装目录/zookeeper/conf/zoo.cfg 调大文件中参数“tickTime”,“syncLimit”的值。
与新生代的比值为2:1,新生代占整个堆空间的1/3,老年代占2/3。 开发Flink应用程序时,优化DataStream的数据分区或分组操作。 当分区导致数据倾斜时,需要考虑优化分区。 避免非并行度操作,有些对DataStream的操作会导致无法并行,例如WindowAll。 keyBy尽量不要使用String。
如果用户在ResourceManager中配置了自定义的调度器,可以通过以下配置项为其配置相应的Web展示页面及其他Web应用。 配置描述 参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面,在搜索框中输入参数名称。 表1 配置自定义调度器的WebUI 参数 描述 默认值 hadoop