检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
当数据量较大,且经常需要按天统计时,建议使用分区表,按天存放数据。 为了避免在插入动态分区数据的过程中,产生过多的小文件,在执行插入时,在分区字段上加上distribute by。 存储文件格式优化建议 Hive支持多种存储格式,比如TextFile,RCFile,ORC,Sequence,P
HOME” )下。 若运行“Spark on HBase”样例程序,需要在Spark客户端的“spark-defaults.conf”配置文件中将配置项“spark.yarn.security.credentials.hbase.enabled”设置为“true”(该参数值默认为
HOME” )下。 若运行“Spark on HBase”样例程序,需要在Spark客户端的“spark-defaults.conf”配置文件中将配置项“spark.yarn.security.credentials.hbase.enabled”设置为“true”(该参数值默认为
输出算子 Hive输出 Spark输出 表输出 文件输出 HBase输出 ClickHouse输出 父主题: 算子帮助
HDFS用户权限管理 创建HDFS权限角色 配置HDFS用户访问HDFS文件权限 父主题: 使用HDFS
Loader输出类算子 Hive输出 Spark输出 表输出 文件输出 HBase输出 ClickHouse输出 父主题: Loader算子帮助
根据查询的结果,获取“--config-file”参数值,即ClickHouseServer的配置文件config.xml目录。 图4 获取ClickHouseServer配置文件目录 执行以下命令查看ClickHouse配置文件config.xml,可以看到<auxiliary_zookeepers>相关信息已添加成功。
INFO DEBUG HANDLER_LOGFILE_MAXBACKUPINDEX Hue日志文件最大个数。 20 1~999 HANDLER_LOGFILE_SIZE Hue日志文件最大大小。 5MB - Hue自定义参数请参见表2。以下自定义参数仅MRS 3.1.2及之后版本适用。
--ldap_uri-port ldap port 389 - --max_log_files 进程日志的最大文件个数。 10 - --max_log_size 进程的日志文件大小最大值,单位 MB。 200 - statestored.customized.configs Statestored进程的自定义配置项。
per”的值,例如“/bin/cat”。配置“Reducer”的值,例如“/usr/bin/wc”。然后单击“添加”。 单击“文件+”,添加运行所需的文件。 例如“/user/oozie/share/lib/mapreduce-streaming/hadoop-streaming-xxx
hema文件到HDFS上。计算公式:no. of block x block_size x replication_factor of the schema file = 1 x 128 x 3 = 384 MB 数据加载时,由于默认块大小为1024MB,每个fact文件需要的最小空间为3072MB。
per”的值,例如“/bin/cat”。配置“Reducer”的值,例如“/usr/bin/wc”。然后单击“添加”。 单击“文件+”,添加运行所需的文件。 例如“/user/oozie/share/lib/mapreduce-streaming/hadoop-streaming-xxx
tableName COMPUTE STATISTICS noscan;)更新表元数据后进行广播。 需要广播的表是分区表,新建表且文件类型为非Parquet文件类型。 需要广播的表是分区表,更新表数据后。 参考信息 被广播的表执行超时,导致任务结束。 默认情况下,BroadCastJo
Impala与HDFS间的关系 Impala默认利用HDFS作为其文件存储系统。Impala通过解析和计算处理结构化的数据,Hadoop HDFS则为Impala提供了高可靠性的底层存储支持。使用Impala将无需移动HDFS中的数据并且提供更快的访问。 Impala与Hive间的关系
否,执行6。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行7。 检查系统环境是否异常。 执行以下命令导入临时文件,并查看“port_result.txt”文件中高使用率端口。 netstat -tnp|sort > $BIGDATA_HOME/tmp/port_result
准备Kafka应用开发环境 准备本地应用开发环境 准备连接Kafka集群配置文件 导入并配置Kafka样例工程 配置Kafka应用安全认证 父主题: Kafka开发指南(安全模式)
准备HBase应用开发环境 准备本地应用开发环境 准备连接HBase集群配置文件 导入并配置HBase样例工程 配置HBase应用安全认证 父主题: HBase开发指南(安全模式)
main()”运行应用工程。 如果集群开启了ZooKeeper SSL,则运行该样例前,需要检查配置文件mapred-site.xml(准备运行环境配置文件中样例工程的“conf”配置文件目录中获取)的配置项“mapreduce.admin.map.child.java.opts”和“mapreduce
frameworkId", "spark.yarn.jars" 解决方法 手动删除checkpoint目录,重启业务程序。 删除文件为高危操作,在执行操作前请务必确认对应文件是否不再需要。 父主题: Spark应用开发常见问题
选择“HiveServer(角色) > 自定义”,对参数文件“hive-site.xml”添加自定义参数,设置“名称”为“hive.restrict.create.grant.external.table”,“值”为“true”。 选择“MetaStore(角色) > 自定义”,对参数文件“hivemetastore-site