检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
onMaster主要负责container的启停。 因而Driver和Executor的参数配置对Spark应用的执行有着很大的影响意义。用户可通过如下操作对Spark集群性能做优化。 操作步骤 配置Driver内存。 Driver负责任务的调度,和Executor、AM之间的消
通过状态后端存储所有原始数据,新来的数据根据状态来判断是否是更新操作,进而通过Flink聚合回撤机制实现聚合结果数据的更新。 优点:可以解决聚合准确性问题,而且对用户友好,对数据没有要求。 缺点:大数据量情况下状态后端存储的数据比较多。 通过CDC格式数据解决 CDC格式数据是指更新操作记录中会同时包含
totalFileSize 分区下文件总大小 maxFileSize 最大文件大小 minFileSize 最小文件大小 lastAccessTime 最后访问时间 lastUpdateTime 最后更新时间 例子 curl -ik -u : --negotiate http://10.64.35
call(Tuple2<String, Integer> s) throws Exception { //取出女性用户的总停留时间,并判断是否大于2小时 if(s._2() > (2 * 60)) {
/monitor/stopDetail.log MonitorServer进程停止日志。 function.log 外部函数调用日志。 /flume/flume-用户名-日期-pid-gc.log Flume进程的GC日志。 /flume/Flume-audit.log Flume客户端的审计日志。 /flume/startAgent
队列中被给予user权限的使用者。 admin_acl array 该队列中被给予admin权限的使用者。 group String 用户组名称。 user String 用户名称。 查询Resource Pool 查询scheduler engine中所有resource pool。 URL GET
队列中被给予user权限的使用者。 admin_acl array 该队列中被给予admin权限的使用者。 group String 用户组名称。 user String 用户名称。 查询Resource Pool 查询scheduler engine中所有resource pool。 URL GET
结果分析: 通过这个接口,可以查询当前集群中Yarn上的任务,并且可以得到如下表1。 表1 常用信息 参数 参数描述 user 运行这个任务的用户。 applicationType 例如MAPREDUCE或者SPARK等。 finalStatus 可以知道任务是成功还是失败。 elapsedTime
carbon.properties 适用于 数据加载 场景描述 使用索引缓存服务器过程中开启数据预加载可以提升首次查询的性能。 如何调优 用户可以将该参数设置为true来开启预加载。默认情况,该参数为false。 父主题: CarbonData性能调优
e文件直接做合并产生新的base文件,而不是写log。 分区设置操作 Hudi支持多种分区方式,如多级分区、无分区、单分区、时间日期分区。用户可以根据实际需求选择合适的分区方式,接下来将详细介绍Hudi如何配置各种分区类型。 多级分区 多级分区即指定多个字段为分区键,需要注意的配置项:
内实现数据点查关联。若数据量过大,需要给TM分配大的内存空间,否则容易导致作业异常。 外置维度表:将维度数据存在高速的K-V数据库中,通过远程的K-V查询实现点查关联,常用的开源K-V库有HBase。 状态维度表:将维度表数据当做流表,实时读入到流式作业当中,通过数据的回撤流能力
不涉及 默认取值: 不涉及 component_infos Array of ComponentInfo objects 参数解释: 组件实例信息数组。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 表5 ServerInfo 参数 参数类型 描述 server_id
ser}/{yarn.nodemanager.remote-app-log-dir-suffix}”。 说明: {user}为运行任务时的用户名。 logs yarn.nodemanager.log-aggregator.on-fail.remain-log-in-sec 设置C
参考MRS服务支持的组件获取MRS版本及对应版本支持的组件信息 接口约束 集群登录方式有密码和密钥对两种,两者必选其一。 使用密码方式需要配置访问集群节点的root密码,即cluster_master_secret。 使用密钥对方式需要配置密钥对名称,即node_public_cert_name。
在作业详情展示和日志打印中存在暴露的风险,请谨慎操作。 提交HiveScript或HiveSql类型的作业时如需以“obs://”开头格式访问存储在OBS上的文件,请在Hive服务配置页面搜索参数“core.site.customized.configs”,新增OBS的endpoint配置项,参数为“fs