检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
用户同时还需要至少有manager_viewer权限的角色。 已获取运行状态的Oozie服务器(任意实例)URL,如“https://10.1.130.10:21003/oozie”。 已获取运行状态的Oozie服务器主机名,如“10-1-130-10”。 已获取Yarn ResourceManager主节点IP,如“10
是一样的。 Flume客户端需要单独安装,支持将数据直接导到集群中的HDFS和Kafka等组件上。 本案例中,通过MRS自定义集群中的Flume组件,自动采集指定节点日志目录下新产生的文件并存储到HDFS文件系统中。 方案架构 Flume-NG由多个Agent来组成,而每个Age
运行日志记录了集群各服务运行产生的信息及调试信息、状态变迁、未产生影响的潜在问题和直接的错误信息。 审计日志 审计日志中记录了用户活动信息和用户操作指令信息,可用于安全事件中定位问题原因及划分事故责任。 MRS日志目录清单见下表: 表2 日志目录一览表 文件目录 日志内容 /var/log/Bigdata/audit
//设置job的并发度为2 env.setBufferTimeout(2); // 创建Zookeeper的注册服务器handler ZookeeperRegisterServerHandler zkRegisterServerHandler
单击“返回集群列表”,可以查看到集群创建的状态。 集群创建需要时间,所创集群的初始状态为“启动中”,创建成功后状态更新为“运行中”,请您耐心等待。 集群创建的状态过程请参见表1中的“状态”参数说明。 MRS系统界面支持同一时间并发创建10个集群,且最多支持管理100个集群。 自定义购买专属云MRS集群
> 权限 > 域和互信”,查看“本端域”参数,即为当前系统域名。 查看作业管理界面,作业状态为“运行中”。 参考管理Kafka Topic中的消息,查看Topic并向Kafka中写入数据。 ./kafka-topics.sh --list --zookeeper ZooKeepe
DataNode数据均衡 操作场景 本章节适用于MRS 3.x及后续版本。 HDFS集群可能出现DataNode节点间磁盘利用率不平衡的情况,比如集群中添加新数据节点的场景。如果HDFS出现数据不平衡的状况,可能导致多种问题,比如MapReduce应用程序无法很好地利用本地计算的优势、数据节
登录MRS管理控制台。 在购买包含有Task类型节点组件的集群时,参考自定义购买MRS集群配置集群软件配置和硬件配置信息后,在“高级配置”页签的弹性伸缩栏,打开对应Task节点类型后的开关按钮,即可进行弹性伸缩规则及资源计划的配置或修改。 图1 创建集群时配置弹性伸缩 您可以参考以下场景进行配置:
DataNode数据均衡 操作场景 本章节适用于MRS 3.x及后续版本。 HDFS集群可能出现DataNode节点间磁盘利用率不平衡的情况,比如集群中添加新数据节点的场景。如果HDFS出现数据不平衡的状况,可能导致多种问题,比如MapReduce应用程序无法很好地利用本地计算的优势、数据节
创建具有访问OBS权限的ECS委托,详细操作请参考配置MRS集群通过IAM委托对接OBS中“创建具有访问OBS权限的ECS委托”部分。例如委托名称为“mrs_ecs_obs”。(如果已存在可用的OBS权限委托,则跳过该步骤) 在MRS管理控制台“现有集群”中单击已创建完成的MRS集群名称。
的任务数与YARN运行中的任务数比值。 取值范围为[0~2147483646]。 YARNAppRunning 整型 YARN组件运行中的任务数。 取值范围为[0~2147483646]。 YARNContainerAllocated 整型 YARN组件中已分配的container个数。
连续不断地从Kafka中接收数据并写入到WAL中相比,Direct API简单地给出每个batch区间需要读取的偏移量位置。然后,每个batch的Job被运行,而对应偏移量的数据在Kafka中已准备好。这些偏移量信息也被可靠地存储在checkpoint文件中,应用失败重启时可以直接读取偏移量信息。
档存储的对象,而无需提前恢复。 关闭 企业项目 将桶加入到企业项目中统一管理。 default 标签 可选。标签用于标识OBS中的桶,以此达到对OBS中的桶进行分类的目的。 - 等待文件系统创建好,单击文件系统名称,选择“文件 > 上传文件”,将数据文件上传至OBS并行文件系统内。
Spark Structured Streaming状态操作样例程序(Scala) 功能介绍 在Spark结构流应用中,跨批次统计每个session期间发生了多少次event以及本session的开始和结束timestamp;同时输出本批次被更新状态的session。 代码样例
Spark Structured Streaming状态操作样例程序(Scala) 功能介绍 在Spark结构流应用中,跨批次统计每个session期间发生了多少次event以及本session的开始和结束timestamp;同时输出本批次被更新状态的session。 代码样例
Spark Structured Streaming状态操作样例程序(Scala) 功能介绍 在Spark结构流应用中,跨批次统计每个session期间发生了多少次event以及本session的开始和结束timestamp;同时输出本批次被更新状态的session。 代码样例
Spark Structured Streaming状态操作样例程序(Scala) 功能介绍 在Spark结构流应用中,跨批次统计每个session期间发生了多少次event以及本session的开始和结束timestamp;同时输出本批次被更新状态的session。 代码样例
0及以后版本。 使用场景 通过CompiledPlan提交的作业,算子的并行度、算子的TTL都以CompiledPlan中的值为准,而不是“flink-conf.yaml”中的值。FlinkSQL支持通过修改作业的CompiledPlan来设置算子并行度。 修改CompiledPlan时不能破坏Json
planning-lookback 10 用于设置拆分数据时的bin数。 read.split.open-file-cost 4194304(4MB) 打开文件的估计使用成本,在合并拆分时作为最小权重使用。 read.parquet.vectorization.enabled true 用于控制是否使用Parquet矢量化读取。
String 否 所有的列在同一个Family列族下 指定映射表中列与HBase数据源表中列族的映射关系。如果需要关联一张HBase数据源中的表,那么column_mapping必须与HBase数据源中的一致;如果创建一张HBase数据源中不存在的新表,column_mapping 由用户指定。