检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
MRS提供两种计费模式: 包年/包月 按需计费 选择“按需计费”时,可能需要冻结一定的保证金。详细内容,请参见计费说明。 按需计费 集群名称 集群名称不允许重复。只能由字母、数字、中划线和下划线组成,并且长度为1~64个字符。 MRS_hbase 集群类型 提供几种集群类型: 分析集群 流式集群 混合集群
下有更大的吞吐量;连续模式适合毫秒级的数据处理延迟,当前暂时还属于实验特性。 在当前版本中,若需要使用流流Join功能,则output模式只能选择append模式。 图6 微批模式运行过程简图 图7 连续模式运行过程简图 父主题: Spark2x开发指南(普通模式)
successfully ... 客户端安装目录可以不存在,会自动创建。但如果存在,则必须为空,目录路径不能包含空格。且客户端安装目录路径只能包含大写字母、小写字母、数字以及_字符。 步骤四:准备应用程序及数据 MRS集群创建成功后,可获取集群客户端内的wordcount样例程序
下有更大的吞吐量;连续模式适合毫秒级的数据处理延迟,当前暂时还属于实验特性。 在当前版本中,若需要使用流流Join功能,则output模式只能选择append模式。 图6 微批模式运行过程简图 图7 连续模式运行过程简图 父主题: Spark2x开发指南(普通模式)
下有更大的吞吐量;连续模式适合毫秒级的数据处理延迟,当前暂时还属于实验特性。 在当前版本中,若需要使用流流Join功能,则output模式只能选择append模式。 图6 微批模式运行过程简图 图7 连续模式运行过程简图 父主题: Spark2x开发指南(安全模式)
果WITH子句指定的属性名称与复制的属性名称相同,则将使用WITH子句中的值。默认是EXCLUDING PROPERTIES属性,而且最多只能为一个表指定INCLUDING PROPERTIES属性。 PARTITIONED BY能够用于指定分区的列;CLUSTERED BY能够被用于指定分桶的列;SORT
解决Hive的hiveserver.out日志不压缩,导致/var/log/占满的问题 解决Hive分区表增加字段时间长的问题 解决rand函数在0-1直接的随机数字串只能生成0.72左右的问题 解决Hive的WebHcat进程kill后,无法自拉起,无告警上报的问题 解决Kafka在kerberos认证失败之后自动重启存在异常的问题
在独立模式和Mesos粗粒度模式下设置此参数。当有足够多的内核时,允许应用程序在同样的worker上执行多个执行程序;否则,在每个worker上,每个应用程序只能运行一个执行程序。 1 spark.shuffle.service.enabled NodeManager中一个长期运行的辅助服务,用于提升Shuffle计算性能。
“作业类型”选择“Flink”并参考表1配置Flink作业信息。 图1 添加Flink作业 表1 作业配置信息 参数 描述 示例 作业名称 作业名称,只能由字母、数字、中划线和下划线组成,并且长度为1~64个字符。 flink_job 执行程序路径 待执行程序包地址,可直接手动输入地址路径,
在独立模式和Mesos粗粒度模式下设置此参数。当有足够多的内核时,允许应用程序在同样的worker上执行多个执行程序;否则,在每个worker上,每个应用程序只能运行一个执行程序。 1 spark.shuffle.service.enabled NodeManager中一个长期运行的辅助服务,用于提升Shuffle计算性能。
参数类型 描述 project_id 是 String 参数解释: 项目编号。获取方法,请参见获取项目ID。 约束限制: 不涉及 取值范围: 只能由英文字母和数字组成,且长度为[1-64]个字符。 默认取值: 不涉及 version_name 是 String 参数解释: 集群版本。例如“MRS
'LabelB[fallback=NONE]' -path /Spark命令,给Spark目录设置表达式。在“/Spark”目录下文件对应的数据块副本只能放置到LabelB标签上的节点,如DN5、DN6、DN7、DN8。 设置数据节点的标签参考配置描述。 如果同一个集群上存在多个机架,每个标
Scheduler和YARN开源调度器做了对比分析,如表2所示: 表2 对比分析 领域 YARN开源调度器 Superior Scheduler 多租户调度 在同构集群上,只能选择容量调度器(Capacity Scheduler)或公平调度器(Fair Scheduler)两者之一,且集群当前不支持公平调度器(Fair
下有更大的吞吐量;连续模式适合毫秒级的数据处理延迟,当前暂时还属于实验特性。 在当前版本中,若需要使用流流Join功能,则output模式只能选择append模式。 图6 微批模式运行过程简图 图7 连续模式运行过程简图 父主题: Spark2x开发指南(安全模式)
框中选择可用的弹性公网IP,否则直接执行3.b。 如果没有可用的弹性公网IP,可单击“管理弹性公网IP”创建弹性公网IP,同一弹性公网IP只能被一个MRS集群绑定使用。 如果需要解绑或释放弹性公网IP,请登录“弹性公网IP”界面,在待操作的弹性公网IP后,单击“操作”列的“解绑”或“更多
框中选择可用的弹性公网IP,否则直接执行3.b。 如果没有可用的弹性公网IP,可单击“管理弹性公网IP”创建弹性公网IP,同一弹性公网IP只能被一个MRS集群绑定使用。 如果需要解绑或释放弹性公网IP,请登录“弹性公网IP”界面,在待操作的弹性公网IP后,单击“操作”列的“解绑”或“更多
Hudi数据源名称 适用于MRS 3.3.0及以后版本 开启Hudi重定向时需配置目标Hudi数据源。 下拉框中显示所有已配置的Hudi数据源,只能选择满足Metastore URL条件的Hudi数据源。 - 安全认证机制 打开安全模式后自动默认为KERBEROS。 KERBEROS 服务端Principal
'LabelB[fallback=NONE]' -path /Spark命令,给Spark目录设置表达式。在“/Spark”目录下文件对应的数据块副本只能放置到LabelB标签上的节点,如DN5、DN6、DN7、DN8。 设置数据节点的标签参考配置描述。 如果同一个集群上存在多个机架,每个标
ClickHouse通过HDFS引擎表写入数据到HDFS时,如果HDFS上数据文件不存在,会生成对应的数据文件。 ClickHouse不支持删除修改和追加写HDFS引擎表数据,只能一次性写入数据。 ClickHouse删除HDFS引擎表以后对HDFS上的数据文件没有影响。 父主题: ClickHouse数据导入
shell中,以“hbase”用户执行以下命令,启用将主集群表的数据实时容灾功能,确保后续主集群中修改的数据能够实时同步到备集群中。 一次只能针对一个HTable进行数据同步。 enable_table_replication '表名' 若备集群中不存在与要开启实时同步的表同名的表,则该表会自动创建。