检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备Flink安全认证 场景说明 在安全集群环境下,各个组件之间的相互通信不能够简单的互通,而需要在通信之前进行相互认证,以确保通信的安全性。 用户在提交Flink应用程序时,需要与Yarn、HDFS等之间进行通信。那么提交Flink的应用程序中需要设置安全认证,确保Flink程序能够正常运行。
通过ECS创建或查询密钥对 通过终端节点获取区域信息 参考MRS服务支持的组件获取MRS版本及对应版本支持的组件信息 接口约束 无 调用方法 请参见如何调用API。 URI POST /v2/{project_id}/clusters 表1 路径参数 参数 是否必选 参数类型 描述 project_id
使用Loader从HBase导出数据到HDFS/OBS 操作场景 该任务指导用户使用Loader将数据从HBase导出到HDFS/OBS。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的HDFS/OBS目录和数据。 确保用户
典型场景:从HBase导出数据到HDFS/OBS 操作场景 该任务指导用户使用Loader将数据从HBase导出到HDFS/OBS。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的HDFS/OBS目录和数据。 确保用户已授权
Spark JDBCServer接口介绍 简介 JDBCServer是Hive中的HiveServer2的另外一个实现,它底层使用了Spark SQL来处理SQL语句,从而比Hive拥有更高的性能。 JDBCServer是一个JDBC接口,用户可以通过JDBC连接JDBCServ
MRS 1.9.0.8、1.9.0.9、1.9.0.10补丁说明 补丁基本信息 表1 补丁基本信息 解决的问题 补丁号:MRS 1.9.0.10 发布时间:2023-01-17 修复问题列表: MRS大数据组件 OBSA支持流控重试 补丁号:MRS 1.9.0.9 发布时间:2022-08-10
Flink应用性能调优建议 配置内存 Flink是依赖内存计算,计算过程中内存不够对Flink的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存使用及剩余情况来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的YARN的Container
容量均衡的两个主要的使用原则,如表2所示。 表2 使用原则 编号 使用原则 说明 1 所有的数据节点在locators中出现的频率一样。 如何保证频率一样:假如数据节点有N个,则创建locators的数量应为N的整数倍(N个、2N个……)。 2 对于所有locators的使用需要
容量均衡的两个主要的使用原则,如表2所示。 表2 使用原则 编号 使用原则 说明 1 所有的数据节点在locators中出现的频率一样。 如何保证频率一样:假如数据节点有N个,则创建locators的数量应为N的整数倍(N个、2N个……)。 2 对于所有locators的使用需要
容量均衡的两个主要的使用原则,如表2所示。 表2 使用原则 编号 使用原则 说明 1 所有的数据节点在locators中出现的频率一样。 如何保证频率一样:假如数据节点有N个,则创建locators的数量应为N的整数倍(N个、2N个……)。 2 对于所有locators的使用需要
容量均衡的两个主要的使用原则,如表2所示。 表2 使用原则 编号 使用原则 说明 1 所有的数据节点在locators中出现的频率一样。 如何保证频率一样:假如数据节点有N个,则创建locators的数量应为N的整数倍(N个、2N个……)。 2 对于所有locators的使用需要
ClickHouse SQL调优 规则 合理使用数据表的分区字段和索引字段。 MergeTree引擎,数据是以分区目录的形式进行组织存储的,在进行的数据查询时,使用分区可以有效跳过无用的数据文件,减少数据的读取。 MergeTree引擎会根据索引字段进行数据排序,并且根据inde
不是col1。 现在最适合使用索引的方法是,当有多个候选索引时,需要从可能的候选索引中选择最适合scan数据的索引。 可借助以下方案来了解如何选择索引策略: 可以完全匹配。 场景:有两个索引可用,一个用于col1&col2,另一个单独用于col1。 在上面的场景中,第二个索引会比
使用Loader从HDFS/OBS导入数据到HBase 操作场景 该任务指导用户使用Loader将文件从HDFS/OBS导入到HBase。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的HDFS/OBS目录和数据。 确保用户
典型场景:从HDFS/OBS导入数据到HBase 操作场景 该任务指导用户使用Loader将文件从HDFS/OBS导入到HBase。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的HDFS/OBS目录和数据。 确保用户已授权
要求Compaction执行合并的过程必须和实时任务解耦,通过周期调度Spark任务来完成异步Compaction,这个方案的关键之处在于如何合理的设置这个周期,周期如果太短意味着Spark任务可能会空跑,周期如果太长可能会积压太多的Compaction Plan没有去执行而导致
配置MRS租户队列 用户可以根据业务需求,在MRS修改指定租户的队列配置,对队列进行扩容或缩容。Yarn任务队列和资源池关联,可实现资源的分配和调度。 前提条件 如果通过MRS管理控制台操作,需要已完成IAM用户同步(在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步)。
缩容ClickHouseServer节点 MRS集群中部署了ClickHouse服务时,如果需要缩容ClickHouseServer节点,需参考本章节进行缩容前的数据检查,避免在删除节点过程中造成数据丢失。 缩容ClickHouseServer约束限制 表1 ClickHouseServer缩容约束
使用Hive CBO功能优化查询效率 操作场景 在Hive中执行多表Join时,Hive支持开启CBO(Cost Based Optimization),系统会自动根据表的统计信息,例如数据量、文件数等,选出合适计划提高多表Join的效率。Hive需要先收集表的统计信息后才能使CBO正确的优化。
HBase开源增强特性 HBase开源增强特性:HIndex HBase是一个Key-Value类型的分布式存储数据库。每张表的数据按照RowKey的字典顺序排序,因此,如果按照某个指定的RowKey去查询数据,或者指定某一个RowKey范围去扫描数据时,HBase可以快速定位到