检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark运维管理 快速配置参数 常用参数 Spark2x日志介绍 调整Spark日志级别 配置WebUI上查看Container日志 获取运行中Spark应用的Container日志 配置Spark Eventlog日志回滚 配置WebUI上显示的Lost Executor信息的个数
应增加Executor的个数,以提高运行效率。 将“spark-defaults.conf”中的“spark.executor.instance”配置项或者“spark-env.sh”中的“SPARK_EXECUTOR_INSTANCES”配置项设置为合适大小。 在使用spark
进入Tez WebUI界面显示异常 问题 登录Manager界面,跳转Tez WebUI界面,显示404异常或503异常。 回答 Tez WebUI依赖Yarn的TimelineServer实例,需要预先安装TimelineServer,且处于良好状态。 父主题: Tez常见问题
重启YARN,本地日志不被删除 问题 在以下两种情况下重启YARN,本地日志不会被定时删除,将被永久保留。 在任务运行过程中,重启YARN,本地日志不被删除。 在任务完成,日志归集失败后定时清除日志前,重启YARN,本地日志不被删除。 回答 NodeManager有重启恢复机制,详情请参见:
报错找不到QueryProvider类 问题 报错找不到QueryProvider类。 回答 搜索mrs客户端目录,将以下两个jar包放入sqoop的lib目录下。 父主题: Sqoop常见问题
带了postgre驱动包gsjdbc4-*.jar,与开源postgre服务不兼容导致报错。 报错中type为12时:数据库的pg_hba.conf文件配置有误。 解决方案: 报错中type为5时:在每台MRS NodeManager实例所在节点上移动驱动包gsjdbc4-*.jar到tmp目录下。
配置ClickHouse对接OBS源文件 使用S3表函数 登录主OMS节点。 执行以下命令获取OBS内的存储数据。 select * from S3(path, [ak, sk,] format, structure, [compression]) path:访问域名/OBS文件
的序号开始的edits文件,看是否有不连续的情况(即前一个edits文件的最后一个序号和后一个edits文件的第一个序号不是连续的,如下图中的edits_0000000000013259231-0000000000013259237和后一个edits_00000000000132
部署deploy Deploy命令概览 命令解析 deploy function命令 deploy trigger命令 父主题: 指令使用方法
转为changelog数据存储到Hudi的MOR表的log文件中,也可以基于状态后端生成Hudi的changelog数据。 优点:可以基于湖存储实现更新数据聚合一致性保证。 缺点: Hudi的MOR表中仅在log文件中存在changelog数据,如果Flink作业计算延迟导致上游
Hive和Calcite具有不同的保留关键字。例如default在Calcite中是保留关键字,在Hive中是非保留关键字。所以在使用Hive dialect时,必须使用反引号(`)引用此类关键字,才能将其用作标识符。 在Hive中不能查询在Flink中创建的视图。 【示例】修改SQL解析为Hive语法(sql-submit-defaults
重启YARN,本地日志不被删除 问题 在以下两种情况下重启YARN,本地日志不会被定时删除,将被永久保留。 在任务运行过程中,重启YARN,本地日志不被删除。 在任务完成,日志归集失败后定时清除日志前,重启YARN,本地日志不被删除。 回答 NodeManager有重启恢复机制,详情请参见:
导致JVM在minor GC时无法完全回收,无法回收的内存持续累积,最终触发JVM的full GC。JVM的GC都是阻塞式的,即在GC过程中不执行任何作业,所以如果full GC的时间过长,超出了RM与ZK之间定期交互时长的阈值,就会出现主备倒换。 登录FusionInsight
执行和管理SparkSql语句。 在“保存的查询”中查看当前访问用户已保存的SparkSql语句。 在“查询历史记录”中查看当前访问用户执行过的SparkSql语句。 执行SparkSql语句 在“Database”右侧下拉列表选择一个SparkSql中的数据库,默认数据库为“default”。
降低系统负载压力 配置HetuEngine物化视图推荐能力 配置物化视图缓存能力 可将多次执行并改写后的SQL保存到缓存中,再次执行这条SQL时会直接从缓存中获取改写后的SQL,而不是重新对SQL进行改写,提高查询效率 配置HetuEngine物化视图缓存能力 配置物化视图有效期与数据刷新
ack savepoint -> delete savepoint -> rollback下一个savepoint。 系统响应 可在客户端中查看查询结果。 父主题: Hudi CALL COMMAND语法说明
HTML输入 概述 “HTML输入”算子,导入有规则的HTML文件,并将HTML文件中的元素转换成输入字段。 输入与输出 输入:HTML文件 输出:多个字段 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 父标签 所有字段的上层HTML标签,用于限定搜索范围 string
分隔转换 概述 “分隔转换”算子,将已有字段的值按指定的分隔符分隔后生成新字段。 输入与输出 输入:需要分隔的字段 输出:分隔后的字段 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 输入字段名 被分隔的字段名,需填写上一个转换步骤生成的字段名。 string 是
ARQUET要求Loader的输出字段名和SparkSQL表中的字段名保持一致。 Hive 1.2.0版本之后,Hive使用字段名称替代字段序号对ORC文件进行解析,因此,Loader的输出字段名和SparkSQL表中的字段名需要保持一致。 enum 是 CSV Spark文件压缩格式
一个文件。详细使用,见最后示例。 true date.day 顺延的天数,匹配导入文件的文件名中的日期。例如命令参数传入的日期是20160202,顺延天数是3,则匹配作业配置的输入路径中包含20160205日期字段的文件。详细使用见schedule-tool工具使用示例。 3 file