检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备HDFS应用开发和运行环境 准备开发环境 在进行应用开发时,要准备的开发和运行环境如表1所示。 表1 开发环境 准备项 说明 操作系统 开发环境:Windows系统,支持Windows7以上版本。 运行环境:Windows或Linux系统。 如需在本地调测程序,运行环境需要和集群业务平面网络互通。
导入DWS表数据至ClickHouse ClickHouse支持CSV、JSON等格式文件的数据导入导出操作。本章节主要介绍怎么把DWS数据仓库服务中的表数据导出到CSV文件,再把CSV文件数据导入到ClickHouse表中。 前提条件 ClickHouse集群和实例状态正常。
onMaster主要负责container的启停。 因而Driver和Executor的参数配置对Spark应用的执行有着很大的影响意义。用户可通过如下操作对Spark集群性能做优化。 操作步骤 配置Driver内存。 Driver负责任务的调度,和Executor、AM之间的消
通过状态后端存储所有原始数据,新来的数据根据状态来判断是否是更新操作,进而通过Flink聚合回撤机制实现聚合结果数据的更新。 优点:可以解决聚合准确性问题,而且对用户友好,对数据没有要求。 缺点:大数据量情况下状态后端存储的数据比较多。 通过CDC格式数据解决 CDC格式数据是指更新操作记录中会同时包含
onMaster主要负责container的启停。 因而Driver和Executor的参数配置对Spark应用的执行有着很大的影响意义。用户可通过如下操作对Spark集群性能做优化。 操作步骤 配置Driver内存。 Driver负责任务的调度,和Executor、AM之间的消
/monitor/stopDetail.log MonitorServer进程停止日志。 function.log 外部函数调用日志。 /flume/flume-用户名-日期-pid-gc.log Flume进程的GC日志。 /flume/Flume-audit.log Flume客户端的审计日志。 /flume/startAgent
strings 参数解释: 缩容节点时指定待删除节点的资源ID列表。resource_ids为空时,按照系统规则自动选择删除节点。仅支持删除状态异常的ecs节点。会针对指定节点进行强制删除。可通过查询主机接口获取resource_id。 约束限制: 不涉及 响应参数 状态码: 200 表3 响应Body参数
lNodes的权限,这会有效防止其他NameNode的Active状态,使得切换安全进行。 关于HDFS高可用性方案的更多信息,可参考如下链接: MRS 3.2.0之前版本:http://hadoop.apache.org/docs/r3.1.1/hadoop-project-d
Flume常用配置参数 部分参数可在Manager界面配置。 使用Flume需要配置Source、Channel和Sink,各模块配置参数说明可通过本节内容了解。 MRS 3.x及之后版本部分参数可通过Manager界面配置,选择“集群 > 服务 > Flume > 配置工具”,
结果分析: 通过这个接口,可以查询当前集群中Yarn上的任务,并且可以得到如下表1。 表1 常用信息 参数 参数描述 user 运行这个任务的用户。 applicationType 例如MAPREDUCE或者SPARK等。 finalStatus 可以知道任务是成功还是失败。 elapsedTime
} } }); // 5.筛选连续上网时间超过阈值的用户,并获取结果 upTimeUser.print(); // 6.Streaming系统启动
在作业详情展示和日志打印中存在暴露的风险,请谨慎操作。 提交HiveScript或HiveSql类型的作业时如需以“obs://”开头格式访问存储在OBS上的文件,请在Hive服务配置页面搜索参数“core.site.customized.configs”,新增OBS的endpoint配置项,参数为“fs
域名(Default Realm,从环境变量USERDNSDOMAIN中获取)。如果该主机没有域名,则运行样例程序会有如下报错: 此时需要用户设置系统的环境变量USERDNSDOMAIN以规避该问题,具体如下: 单击“计算机”右键,选择“属性”,然后选择“高级系统设置 > 高级 >
e文件直接做合并产生新的base文件,而不是写log。 分区设置操作 Hudi支持多种分区方式,如多级分区、无分区、单分区、时间日期分区。用户可以根据实际需求选择合适的分区方式,接下来将详细介绍Hudi如何配置各种分区类型。 多级分区 多级分区即指定多个字段为分区键,需要注意的配置项:
ser}/{yarn.nodemanager.remote-app-log-dir-suffix}”。 说明: {user}为运行任务时的用户名。 logs yarn.nodemanager.log-aggregator.on-fail.remain-log-in-sec 设置C
ser}/{yarn.nodemanager.remote-app-log-dir-suffix}”。 说明: {user}为运行任务时的用户名。 logs yarn.nodemanager.log-aggregator.on-fail.remain-log-in-sec 设置C