检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
86400 如果是任务日志将HDFS存储空间占用太多,主要修改“mapreduce.jobhistory.max-age-ms”和“yarn.log-aggregation.retain-check-interval-seconds”配置项来控制任务日志保存时间。
86400 如果是任务日志将HDFS存储空间占用太多,主要修改“mapreduce.jobhistory.max-age-ms”和“yarn.log-aggregation.retain-check-interval-seconds”配置项来控制任务日志保存时间。
如果确认文件不再需要并且需要立马释放存储空间,可以继续清理对应的回收站目录(例如:hdfs://hacluster/user/xxx/.Trash/Current/xxx)。 父主题: 使用HDFS
已参考规划MapReduce访问多组件样例程序数据准备好待处理的数据。 运行程序 进入样例工程本地根目录,在Windows命令提示符窗口中执行下面命令进行打包。
map 是 无 数据处理规则 首先判断条件是否成立。如果成立,更新字段的值;如果不成立,则不更新。 当更新字段为数值类型时,更新值需要为数值。 当更新字段为字符串类型时,更新操作不能为“-”。 样例 通过“CSV文件输入”算子,生成两个字段A和B。
map 是 无 数据处理规则 首先判断条件是否成立。如果成立,更新字段的值;如果不成立,则不更新。 当更新字段为数值类型时,更新值需要为数值。 当更新字段为字符串类型时,更新操作不能为“-”。 样例 通过“CSV文件输入”算子,生成两个字段A和B。
DataXceiverServer.java:137) at java.lang.Thread.run(Thread.java:745) 如果某个DataNode日志中打印“Too many open files”,说明该节点文件句柄不足,导致打开文件句柄失败,然后就会重试往其他DataNode节点写数据
不建议同分区内并发写,这种并发写入需要开启Hudi OCC方式并发写入,必须严格遵守并发参数配置,否则会出现表数据损坏的问题。 并发OCC参数控制: SQL方式: --开启OCC。
run archivelog on $tablename; --执行archivelog合并清理元数据文件。
在Spark任务运行过程中禁止重启HDFS服务或者重启所有DataNode实例,否则可能会导致任务失败,并可能导致JobHistory部分数据丢失。 父主题: 在Linux环境中调测Spark应用
HiveServer运行日志 HiveServer负责接收客户端请求(SQL语句),然后编译、执行(提交到YARN或运行Local MR)、与MetaStore交互获取元数据信息等。HiveServer运行日志记录了一个SQL完整的执行过程。
此工具会初始化Carbon环境和预读取表的元数据到JDBCServer,所以更适合在多主实例、静态分配模式下使用。 父主题: Spark运维管理
ALM-12006 节点故障 ALM-12010 Manager主备节点间心跳中断 ALM-12039 OMS数据库主备不同步 ALM-14000 HDFS服务不可用 ALM-14010 NameService服务异常 ALM-14012 Journalnode数据不同步 ALM-
nimbus在超过该参数配置的时间内没有收到拓扑的task发的心跳时,会将该拓扑重新分配(分配给别的supervisor),同时会刷新zk中的任务信息,supervisor读到zk中的任务信息并且与自己当前所启动的拓扑进行比较,如果存在拓扑已经不属于自己,那么则会删除该拓扑的元数据
因为对执行用户做了限制,使用非管理员用户执行建库、表脚本迁移、重建元数据操作时需要特别注意,防止错误。
此工具会初始化Carbon环境和预读取表的元数据到JDBCServer,所以更适合在多主实例、静态分配模式下使用。 父主题: Spark运维管理
在Spark任务运行过程中禁止重启HDFS服务或者重启所有DataNode实例,否则可能会导致任务失败,并可能导致JobHistory部分数据丢失。 父主题: 在Linux环境中调测Spark应用
DistCP作业导入导出数据常见问题 如何通过Yarn WebUI查看Hive作业对应的SQL语句? 如何查看指定Yarn任务的日志? 添加Hive服务后,提交hivesql/hivescript作业失败如何处理? Spark Job对应的运行日志保存在哪里?
如果确认文件不再需要并且需要立马释放存储空间,可以继续清理对应的回收站目录(例如:hdfs://hacluster/user/xxx/.Trash/Current/xxx)。 父主题: 使用HDFS
此功能仅限制各组件服务端访问的MetaStore实例,元数据未隔离。 暂不支持Flink,Flink任务均使用客户端配置,仍可连接所有MetaStore实例,不支持统一配置。 使用spark-sql执行任务时客户端直接连接MetaStore,隔离后需要更新客户端才可生效。