检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
工作流配置文件“workflow.xml”(“coordinator.xml”是对工作流进行调度,“bundle.xml”是对一组coordinator进行管理)与“job.properties”。 如果有实现代码,需要开发对应的jar包,例如Java Action;如果是Hive,则需要开发SQL文件。
操作步骤 安装Flink客户端。 确认服务端Flink组件已经安装。 下载Flink客户端程序。 登录MRS Manager。 单击“服务管理 > Flink > 下载客户端”,在“客户端类型”勾选“完整客户端”,“下载路径”选择“服务器端”,单击“确定”下载客户端到服务器端。
更多的计算框架。 基本概念 ResourceManager(RM) RM是一个全局的资源管理器,负责整个系统的资源管理和分配。它主要由两个组件构成:调度器(Scheduler)和应用程序管理器(Applications Manager,ASM)。 ApplicationMaster(AM)
更多的计算框架。 基本概念 ResourceManager(RM) RM是一个全局的资源管理器,负责整个系统的资源管理和分配。它主要由两个组件构成:调度器(Scheduler)和应用程序管理器(Applications Manager,ASM)。 ApplicationMaster(AM)
更多的计算框架。 基本概念 ResourceManager(RM) RM是一个全局的资源管理器,负责整个系统的资源管理和分配。它主要由两个组件构成:调度器(Scheduler)和应用程序管理器(Applications Manager,ASM)。 ApplicationMaster(AM)
MRS支持将集群中所有部署角色的节点,按管理节点、控制节点和数据节点进行分类,分别计算关键主机监控指标在每类节点上的变化趋势,并在报表中按用户自定义的周期显示分布曲线图。MRS集群指标监控采用周期性监控,历史监控平均周期约为5分钟。 用户可在MRS管理控制台或者Manager界面中查看集群整体的资源概况。
时指定的,这也是JVM可自动GC的部分内存。堆外内存可细分为可被JVM管理的和不可被JVM管理的,可被JVM管理的有Managed Memory、Direct Memory,这部分是调优的重点,不可被JVM管理的有JVM Metaspace、JVM Overhead,这部分是native
窄依赖对优化很有利。逻辑上,每个RDD的算子都是一个fork/join(此join非上文的join算子,而是指同步多个并行任务的barrier):把计算fork到每个分区,算完后join,然后fork/join下一个RDD的算子。如果直接翻译到物理实现,是很不经济的:一是每一个RDD(即使是中间结果)都需要物化到内存
Kafka数据消费概述 Kafka用户权限管理 Kafka客户端使用实践 快速使用Kafka生产消费数据 创建Kafka Topic 在Kafka Topic中接入消息 管理Kafka Topic Kafka企业级能力增强 Kafka性能调优 Kafka运维管理 Kafka常见问题
检查DBService是否正常 登录MRS集群详情页面,选择“组件管理”。 在服务列表中查看DBService服务健康状态是否为“良好”。 是,执行9。 否,执行7。 单击DBService服务的“操作”列的“重启”,重启该服务。 重启服务需要输入MRS Manager管理员密码并勾选“同时重启或启动相关的服务。”。
导致使用量超过阈值。 处理步骤 检查内存使用量。 在MRS集群详情页面,单击“告警管理 > 13002连接数不足 > 定位信息”。查看告警上报的实例的ip。 在MRS集群详情页面,单击“组件管理 > ZooKeeper > 实例 > quorumpeer(对应上报告警实例ip)
yarn.security.credentials.hbase.enabled”设置为“true”(该参数值默认为“false”,改为“true”后对已有业务没有影响。如果要卸载HBase服务,卸载前请将此参数值改回“false”)。 运行任务 进入Spark客户端目录,调用bin/sp
checkpointLocation”参数,且用户必须具有该参数指定的目录的读、写权限。 运行Python样例代码: 运行Python样例代码时需要将打包后的Java项目的jar包添加到streamingClient010/目录下。 bin/spark-submit --master yarn --deploy-mode
如果不添加SparkContext.stop,YARN界面会显示失败。如图1,同样的任务,前一个程序是没有添加SparkContext.stop,后一个程序添加了SparkContext.stop()。 图1 添加SparkContext.stop()和不添加的区别 合理规划AM资源占比
下面代码片段仅为演示,具体代码参见com.huawei.bigdata.spark.examples.DstreamKafkaWriter: Spark版本升级后,推荐使用新接口createDirectStream,老接口createStream仍然存在,但是性能和稳定性差,建议不要使用老接口开发应用程序。
表示访问密钥对应的SK。 关系型数据库连接 关系型数据库连接是Loader与关系型数据库进行数据交换的通道,配置参数如表2所示。 部分参数需要单击“显示高级属性”后展开,否则默认隐藏。 表2 generic-jdbc-connector配置 参数 说明 名称 指定一个Loader连接的名称。 数据库类型
batchid=xxxxx --hivevar kill=true 登录beeline客户端,启动断线重连机制。 登录beeline客户端后,执行“set hivevar:batchid=xxxx” 使用说明: 其中“xxxx”表示每一次通过beeline提交任务的批次号,通过该
收器类型最多,也是最成熟一套接收器。 Kafka包括三种模式的接收器API: KafkaReceiver:直接接收Kafka数据,进程异常后,可能出现数据丢失。 ReliableKafkaReceiver:通过ZooKeeper记录接收数据位移。 DirectKafka:直接通过
threadDump-<DATE>.log 记录服务进程正常退出时堆栈信息的日志 脚本日志 postinstallDetail.log 安装后启动前的工作日志 prestartDetail.log 预启动日志 startDetail.log 服务启动日志 stopDetail.log
单击“+”增加自定义参数。 单击“保存”,在弹出的“保存配置”窗口中确认修改参数,单击“确定”。界面提示“操作成功”,单击“完成”,配置保存成功。 保存完成后请重新启动配置过期的Yarn服务以使配置生效。 父主题: 使用Yarn