检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
例。 Doris冷热分离使用实践 登录安装了MySQL的节点,执行以下命令,连接Doris数据库。 若集群已启用Kerberos认证(安全模式),需先执行以下命令再连接Doris数据库: export LIBMYSQL_ENABLE_CLEARTEXT_PLUGIN=1 mysql
使用Hue提交Oozie Distcp作业 操作场景 该任务指导用户通过Hue界面提交Distcp类型的Oozie作业。 操作步骤 创建工作流,请参考使用Hue创建工作流。 在工作流编辑页面,选择“DistCp”按钮,将其拖到操作区中。 当前DistCp操作是否是跨集群操作。 是,执行4。 否,执行7。
使用Hue提交Oozie Distcp作业 操作场景 该任务指导用户通过Hue界面提交Distcp类型的Oozie作业。 操作步骤 创建工作流,请参考使用Hue创建工作流。 在工作流编辑页面,选择“DistCp”按钮,将其拖到操作区中。 当前DistCp操作是否是跨集群操作。 是,执行4。 否,执行7。
由于冷热数据都在同一张表中,因此用户所有的查询操作都只需在一张表内进行。在查询时,建议通过配置TimeRange来指定查询的时间范围,系统将会根据指定的时间范围决定查询模式,包括仅查询热存储、仅查询冷存储或同时查询冷存储和热存储。如果查询时未限定时间范围,则会导致查询冷数据。在这种情况下,查询吞吐量会受到冷存储的限制。
Spark2x作业 操作场景 该任务指导用户通过Hue界面提交Spark2x类型的Oozie作业。 操作步骤 创建工作流,请参考使用Hue创建工作流。 在工作流编辑页面,选择“Spark 程序”按钮,将其拖到操作区中。 在弹出的“Spark”窗口配置“Files”,例如“hdfs
Spark2x作业 操作场景 该任务指导用户通过Hue界面提交Spark2x类型的Oozie作业。 操作步骤 创建工作流,请参考使用Hue创建工作流。 在工作流编辑页面,选择“Spark 程序”按钮,将其拖到操作区中。 在弹出的“Spark”窗口配置“Files”,例如“hdfs
口,从而控制是否允许触发ECS流控。 MRS集群支持通过委托获取临时AKSK访问OBS。临时AKSK通过ECS元数据接口获取。ECS元数据接口有单机器5分钟140次的流控阈值,触发流控后机器被加入黑名单,30分钟内不能再次请求元数据接口。为防止触发流控,MRS实现了节点级别跨进程
Kafka后进先出功能的开启要求应用只能对接Kafka输入源。 若提交应用的同时开启Kafka后进先出和流控功能,对于B段时间进入Kafka的数据,将不启动流控功能,以确保读取这些数据的任务调度优先级最低。应用重新启动后C段时间的任务启用流控功能。 配置描述 在Spark Driver端的“spark-defaults
Kafka后进先出功能的开启要求应用只能对接Kafka输入源。 如果提交应用的同时开启Kafka后进先出和流控功能,对于B段时间进入Kafka的数据,将不启动流控功能,以确保读取这些数据的任务调度优先级最低。应用重新启动后C段时间的任务启用流控功能。 配置描述 在Spark Driver端的“spark-defaults
第一个值函数选择数据集中的第一个非空值,支持所有数据类型。 使用约束 由于Hudi OCC特性的限制,当前不建议多流并发写Hudi表。 如果需要多流同时写请将所有流union后写入Hudi。 适合批读获取结果。 开启聚合引擎 建表属性中指定hoodie.merge-engine=
推荐Source的并行度由上游组件推断设置,对于流系统,与上游的分区数相同(例如Kafka的Topic分区数);对于批系统,与上游的切片数相同(例如HDFS的block数量)。 Flink作业中有Source、Sink、中间计算算子的并行度可以调整。通过分析作业流图,如果发现是中间计算Busy就
WebUI界面 创建FlinkServer应用 创建FlinkServer集群连接 创建FlinkServer数据连接 创建FlinkServer流表源 父主题: 使用Flink
HBase提供工具类添加HBase运行依赖到Job TableMapReduceUtil.addDependencyJars(job); // 安全模式下必须要执行这个操作 // HBase添加鉴权信息到Job,map或reduce任务将会使用此处的鉴权信息 TableMapReduceUtil
在管理控制台首页服务列表中选择“弹性云服务器”,进入ECS列表,单击“购买弹性云服务器”,配置以下参数并单击“立即购买”创建一个Linux弹性云服务器: 计费模式:选择“按需计费”。 区域:与MRS集群的区域保持一致。 可用区:与MRS集群的可用区保持一致。 实例:根据实际需求选择对应的规格类型。
Kafka运维管理 Kafka常用配置参数 Kafka日志介绍 更改Kafka Broker的存储目录 迁移Kafka节点内数据 使用Kafka流控工具限制生产消费速度 配置积压告警规则 父主题: 使用Kafka
WebUI界面 创建FlinkServer应用 创建FlinkServer集群连接 创建FlinkServer数据连接 创建FlinkServer流表源 父主题: 使用Flink
checkpoints.dir: hdfs://namenode:40010/flink/checkpoints 使用EXACTLY ONCE流处理语义保证端到端的一致性 流处理语义有三种:EXACTLY ONCE、AT LEAST ONCE、AT MOST ONCE。 AT MOST ONCE:
表1 Avro Source常用配置 参数 默认值 描述 channels - 与之相连的Channel,可以配置多个。用空格隔开。 在单个代理流程中,是通过channel连接sources和sinks。一个source实例对应多个channels,但一个sink实例只能对应一个channel。
通过Spark Streaming作业消费Kafka数据 通过Flume采集指定目录日志系统文件至HDFS 基于Kafka的Word Count数据流统计案例 实时OLAP数据分析 物联网时序数据分析
默认取值: 不涉及 safe_mode_kerberos_exclude_components Array of strings 参数解释: 安全模式kerberos排除组件列表。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 表7 NodeConstraints 参数 参数类型