检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
普通版支持集群基础操作如配置、管理和运维等,具体可以查看用户指南。 组件介绍 除共有组件外,普通版集群还支持Presto、Impala、Kudu、Sqoop等组件,可以根据不同集群版本选择不同的组件,具体各版本集群的组件详情可以参考MRS组件版本一览表和组件操作指南。 LTS版 功能说明
Description - 参数配置完成后,单击“确定”创建ENV。 选择“作业管理 > 数据同步任务 > 新建作业”,在“新建作业”窗口中填写配置。单击“下一步”,进入作业参数配置页面。 其中: 参数名称 示例 Name job_oracletohudi Desc New CDL
在进行应用开发时,要准备的开发和运行环境如表1所示。 表1 开发环境 准备项 说明 操作系统 开发环境:Windows系统,支持Windows 7以上版本。 运行环境:Windows系统或Linux系统。 如需在本地调测程序,运行环境需要和集群业务平面网络互通。 安装JDK 开发和运行环境的基本配置。版本要求如下:
参考自定义购买MRS集群配置集群软件配置和硬件配置信息。 在“高级配置”区域勾选“现在配置”,单击引导操作栏的“添加”。 表1 参数描述 参数 示例 说明 名称 bootstrap_0 引导操作脚本的名称。 只能由数字、英文字符、空格、中划线和下划线组成,且不能以空格开头。 可输入的字符串长度为1~64个字符。
业,提交作业之前,首先需要创建一个工作流。 前提条件 使用Hue提交Oozie作业之前,需要提前配置好Oozie客户端,并上传样例配置文件和jar至HDFS指定目录,具体操作请参考Oozie客户端配置说明章节。 操作步骤 准备一个具有对应组件操作权限的用户。 例如:使用admin用户登录FusionInsight
业,提交作业之前,首先需要创建一个工作流。 前提条件 使用Hue提交Oozie作业之前,需要提前配置好Oozie客户端,并上传样例配置文件和jar至HDFS指定目录,具体操作请参考Oozie客户端配置说明章节。 操作步骤 准备一个具有对应组件操作权限的用户。 例如:使用admin用户登录FusionInsight
Spark从Hive读取数据再写入HBase样例程序开发思路 场景说明 假定Hive的person表存储用户当天消费的金额信息,HBase的table2表存储用户历史消费的金额信息。 现person表有记录name=1,account=100,表示用户1在当天消费金额为100元。
更改DataNode的存储目录 操作场景 本章节适用于MRS 3.x及后续版本。 HDFS DataNode定义的存储目录不正确或HDFS的存储规划变化时,MRS集群管理员需要在FusionInsight Manager中修改DataNode的存储目录,以保证HDFS正常工作。适用于以下场景:
Description - 参数配置完成后,单击“确定”创建ENV。 选择“作业管理 > 数据同步任务 > 新建作业”,在“新建作业”窗口中填写配置。单击“下一步”,进入作业参数配置页面。 其中: 参数名称 示例 Name job_avro_oracletohudi Desc New
对于非状态计算主要调优为TaskManager的Heap Size与NetWork。 例如作业仅进行数据的读和写,TaskManage无需增加额外的vCore,off-Heap和Overhead默认为1GB,内存主要给Heap和Network。 状态计算提升性能的资源优化 SQL逻辑包含较多join、卷积计
支持与MapReduce,Spark和其他Hadoop生态系统组件集成 与Apache Impala的紧密集成,使其成为将HDFS与Apache Parquet结合使用的更好选择 提供强大而灵活的一致性模型,允许您根据每个请求选择一致性要求,包括用于严格可序列化的一致性的选项 提供同时运行顺序读写和随机读写的良好性能
to send channel request,导致Manager持续增加下载(sshd)任务导致ClickHouse节点sshd进程不释放和堆积的问题。 解决审计日志打印频繁,导致磁盘满的问题。 ClickHouse开源回合:解决分区中存在两个相同parts内部错误问题。 Cli
“Copy”:表示复制选中的文件或目录。 “Change permissions”:表示修改选中目录或文件的访问权限。 可以为属主、属组和其他用户设置“Read”、“Write”和“Excute”权限。 “Sticky”表示禁止HDFS的管理员、目录属主或文件属主以外的用户在目录中移动文件。 “R
集群ID。如果指定集群ID,则获取该集群做过补丁更新的最新版本元数据。获取方法,请参见获取集群ID。 约束限制: 不涉及 取值范围: 只能由英文字母、数字以及“_”和“-”组成,且长度为[1-64]个字符。 默认取值: 不涉及 表2 Query参数 参数 是否必选 参数类型 描述 node_group 否
选择“作业管理”的“表/文件迁移”页签,单击“新建作业”。 进入作业参数配置界面,配置作业名称,并分别为源连接和目的连接选择5中创建的对应数据连接并选择要迁移的数据库和表名,单击“下一步”。 图3 Hive作业配置 配置源字段和目的字段的映射关系, 并单击“下一步”。 进入任务配置页面,不做修改,直接单击“保存”。
2及之后版本至MRS 3.x之前版本、MRS 3.1.0及之后版本,请参考集群Master节点规格升级(一键升级)。 MRS 1.8.2之前版本和MRS 3.0.5版本,请参考集群Master节点规格升级(分步升级)操作。 升级过程中请勿对集群进行其他操作。 升级Master节点规格会
提供强大而灵活的一致性模型,允许您根据每个请求选择一致性要求,包括用于严格可序列化的一致性的选项。 提供同时运行顺序读写和随机读写的良好性能。 易于管理。 高可用性。Master和TServer采用raft算法,该算法可确保只要副本总数的一半以上可用,tablet就可以进行读写操作。例如,
提供强大而灵活的一致性模型,允许您根据每个请求选择一致性要求,包括用于严格可序列化的一致性的选项。 提供同时运行顺序读写和随机读写的良好性能。 易于管理。 高可用性。Master和TServer采用raft算法,该算法可确保只要副本总数的一半以上可用,tablet就可以进行读写操作。例如,
WebUI界面配置opengauss的thirdparty-kafka连接时增加opengauss的连接信息,如果opengauss部署为一主多备模式,需在“host”填写所有的IP。 配置完成之后,在CDL WebUI界面创建从thirdparty-kafka抓取数据到Hudi的任务并启动即可收到心跳数据。
分布式Scan HBase表 场景说明 用户可以在Spark应用程序中使用HBaseContext的方式去操作HBase,使用hbaseRDD方法以特定的规则扫描HBase表。 数据规划 使用操作Avro格式数据章节中创建的HBase数据表。 开发思路 设置scan的规则,例如:setCaching。