检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
yarn-resourcemanager-period-check.log Yarn resourcemanager的周期检查日志 hadoop.log Hadoop的客户端日志 env.log 实例启停前的环境信息日志。 审计日志 yarn-audit-<process_name>.log ranger-plugin-audit
fileoutputcommitter.algorithm.version 用于指定Job的最终输出文件提交的算法版本,取值为“1”或“2”。 说明: 版本2为建议的优化算法版本。该算法通过让任务直接将每个task的输出结果提交到最终的结果输出目录,从而减少大作业的输出提交时间。 2 父主题: MapReduce性能调优
fileoutputcommitter.algorithm.version 用于指定Job的最终输出文件提交的算法版本,取值为“1”或“2”。 说明: 版本2为建议的优化算法版本。该算法通过让任务直接将每个task的输出结果提交到最终的结果输出目录,从而减少大作业的输出提交时间。 2 父主题: MapReduce性能调优
purge"='true'时,清除元数据和数据文件。 "auto.purge"='false'时,仅清除元数据,数据文件会移入HDFS回收站。默认值为“false”,且不建议用户修改此属性,避免数据删除后无法恢复。 CREATE TABLE orders ( orderkey bigint, orderstatus
hadoop-<SSH_USER>-<process_name>-<hostname>.out HDFS运行环境信息日志。 hadoop.log Hadoop客户端操作日志。 hdfs-period-check.log 周期运行的脚本的日志记录。包括:自动均衡、数据迁移、JournalNode数据同步检测等。
SQL性能 配置场景 在Spark SQL多表Join的场景下,会存在关联键严重倾斜的情况,导致Hash分桶后,部分桶中的数据远高于其它分桶。最终导致部分Task过重,跑得很慢;其它Task过轻,跑得很快。一方面,数据量大Task运行慢,使得计算性能低;另一方面,数据量少的Task在
hadoop-<SSH_USER>-<process_name>-<hostname>.out HDFS运行环境信息日志。 hadoop.log Hadoop客户端操作日志。 hdfs-period-check.log 周期运行的脚本的日志记录。包括:自动均衡、数据迁移、JournalNode数据同步检测等。
createStream进行应用程序开发。旧的API仍然可以使用,但新的API性能和稳定性更好。 /** * 参数解析: * <groupId>为客户的组编号。 * <brokers>为获取元数据的Kafka地址。 * <topic>为Kafka中订阅的主题。 */ public class
createStream进行应用程序开发。旧的API仍然可以使用,但新的API性能和稳定性更好。 /** * 参数解析: * <groupId>为客户的组编号。 * <brokers>为获取元数据的Kafka地址。 * <topic>为Kafka中订阅的主题。 */ public class
createStream进行应用程序开发。旧的API仍然可以使用,但新的API性能和稳定性更好。 /** * 参数解析: * <groupId>为客户的组编号。 * <brokers>为获取元数据的Kafka地址。 * <topic>为Kafka中订阅的主题。 */ public class
createStream进行应用程序开发。旧的API仍然可以使用,但新的API性能和稳定性更好。 /** * 参数解析: * <groupId>为客户的组编号。 * <brokers>为获取元数据的Kafka地址。 * <topic>为Kafka中订阅的主题。 */ public class
SQL性能 配置场景 在Spark SQL多表Join的场景下,会存在关联键严重倾斜的情况,导致Hash分桶后,部分桶中的数据远高于其他分桶。最终导致部分Task过重,运行很慢;其他Task过轻,运行很快。一方面,数据量大Task运行慢,使得计算性能低;另一方面,数据量少的Task在
enabled: true table.optimizer.distinct-agg.split.bucket-num: 1024 查询今天有多少唯一用户登录: SELECT day, COUNT(DISTINCT user_id) FROM T GROUP BY day 自动改写查询: SELECT
当“source”的类型是“kafka source”时,“--schemaprovider-class”指定的schema provider类需要用户自己开发。 “--allow-fetch-from-multiple-sources”表示开启多源表写入。 “--allow-contin
watermelon (3 rows) 否则,如果没有使用ORDER BY,被丢弃的行可能是任意的行。如果OFFSET指定的行数等于或超过了结果集的大小,则最终返回的结果为空。 父主题: HetuEngine DQL SQL语法说明
保证,可以和任何数量的Source和Sink工作。 Sink Sink负责将数据传输到下一跳或最终目的,成功完成后将数据从Channel移除。 典型的Sink类型如下: 存储数据到最终目的终端Sink,比如:HDFS、HBase。 自动消耗的Sink,比如:Null Sink。 用于Agent间通信的IPC
JVM的缺陷,并不是平台代码引入的问题,且Spark中有对Executor的容错机制,Executor Crash之后,Stage会进入重试,可以保证任务最终可以执行完成,不会对业务产生影响。 父主题: Spark Core
JVM的缺陷,并不是平台代码引入的问题,且Spark中有对Executor的容错机制,Executor Crash之后,Stage会进入重试,可以保证任务最终可以执行完成,不会对业务产生影响。 父主题: Spark Core
stinct值的个数)。 distribute by子句限制了Hive表的Partition数量。增加distribute by 子句后,最终的输出文件数取决于指定列的cardinality和“spark.sql.shuffle.partitions”参数值。但如果distribute
stinct值的个数)。 distribute by子句限制了Hive表的Partition数量。增加distribute by 子句后,最终的输出文件数取决于指定列的cardinality和“spark.sql.shuffle.partitions”参数值。但如果distribute