检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ESTRICT,对列的修改,仅对表的元数据产生作用。 列修改命令只能修改表/分区的元数据,而不会修改数据本身。用户应确保表/分区的实际数据布局符合元数据定义。 不支持更改表的分区列/桶列,也不支持更改ORC表。 修改表或分区的存储位置。 ALTER TABLE table_name
写Kudu数据 功能简介 通过KuduClient.newSession()方法生成一个KuduSession对象,然后再把插入记录动作执行到Kudu表里。 代码样例 如下是写数据的代码片段: // Create a KuduSession. KuduSession session
分析Impala数据 功能简介 本小节介绍了如何使用样例程序完成分析任务。本章节以使用JDBC接口提交数据分析任务为例。 样例代码 使用Impala JDBC接口提交数据分析任务,参考样例程序中的JDBCExample.java。 修改以下变量为false,标识连接集群的认证模式为普通模式。
写Kudu数据 功能简介 通过KuduClient.newSession()方法生成一个KuduSession对象,然后再把插入记录动作执行到Kudu表里。 代码样例 如下是写数据的代码片段: // Create a KuduSession. KuduSession session
读Kudu数据 功能简介 通过KuduClient.newScannerBuilder(KuduTable table)方法生成一个KuduScanner对象,然后再通过设置谓词条件从Kudu表里过滤读取数据。 代码样例 如下是读取数据的代码片段: KuduTable table
删除HBase数据 功能简介 HBase通过Table实例的delete方法来Delete数据,可以是一行数据也可以是数据集。 代码样例 以下代码片段在com.huawei.bigdata.hbase.examples包的“HBaseExample”类的testDelete方法中。
HBase数据操作 创建HBase索引进行数据查询 配置HBase数据压缩格式和编码 父主题: 使用HBase
NameNode内存使用率过高,会影响HDFS的数据读写性能。 可能原因 HDFS NameNode配置的内存不足。 处理步骤 清除无用文件。 在集群节点使用客户端,执行hdfs dfs -rm -r 文件或目录路径命令,确认删除无用的文件。 等待5分钟后,检查本告警是否恢复。 是,处理完毕。
DataNode内存使用率过高,会影响到HDFS的数据读写性能。 可能原因 HDFS DataNode配置的内存不足。 处理步骤 清除无用文件。 在集群节点使用客户端,执行hdfs dfs -rm -r 文件或目录路径命令,确认删除无用的文件。 等待5分钟后,检查本告警是否恢复。 是,处理完毕。
--windowTime 2 表1 参数说明 参数名称 说明 <filePath> 指本地文件系统中文件路径,每个节点都需要放一份/opt/log1.txt和/opt/log2.txt并使用chmod 755 文件名命令为用户赋予读、写、执行权限,而属组用户和其他用户只有读、执行权限。可以默认,也可以自行设置。
如果结果不是“...has 0 CORRUPT files”,并返回损坏的文件名称,请执行以下操作删除损坏的文件。 hdfs dfs -rm 损坏的文件名称 删除文件为高危操作,在执行操作前请务必确认对应文件是否不再需要。 通过管理控制台退服或入服实例 登录MRS管理控制台。 选择
SHOW_INVALID_PARQUET 本章节仅适用于MRS 3.3.0及之后版本。 命令功能 查看执行路径下损坏的parquet文件。 命令格式 call show_invalid_parquet(path => 'path') 参数描述 表1 参数描述 参数 描述 是否必填
例如“Spark-Workflow”。 保存完成后,单击,提交该作业。 作业提交后,可通过Hue界面查看作业的详细信息、日志、进度等相关内容。 父主题: 使用Hue提交Oozie作业
0MB的时候(此日志文件大小可进行配置),会自动压缩,压缩后的日志文件名规则为:“<原有日志名>-<yyyymmdd>.编号.log.gz”。最多保留最近的10个压缩文件,压缩文件保留个数和压缩文件阈值可以配置。 表1 IoTDB日志列表 日志类型 日志文件名 描述 运行日志 log-all
yaml”配置文件中,在“env.java.opts”配置项中添加参数:“-XX:NewRatio”。如“ -XX:NewRatio=2”,则表示老年代与新生代的比值为2:1,新生代占整个堆空间的1/3,老年代占2/3。 开发Flink应用程序时,优化DataStream的数据分区或分组操作。
参数 描述 是否必填 table 需要查询表的表名,支持database.tablename格式 是 clean_policy 清理老版本数据文件的策略,默认KEEP_LATEST_COMMITS 否 retain_commits 仅对KEEP_LATEST_COMMITS策略有效
配置Hive表不同分区分别存储至OBS和HDFS 配置Hive目录旧数据自动移除至回收站 配置Hive插入数据到不存在的目录中 配置创建Hive内部表时不能指定Location 配置用户在具有读和执行权限的目录中创建外表 配置基于HTTPS/HTTP协议的REST接口 配置Hive Transform功能开关
三种方法任选其一即可,具体如下: 在客户端spark-defaults.conf配置文件中,在“spark.yarn.cluster.driver.extraClassPath”参数值中添加服务端的依赖包路径,如“${BIGDATA_HOME}/FusionInsight_Spark2x_8
三种方法任选其一即可,具体如下: 在客户端spark-defaults.conf配置文件中,在“spark.yarn.cluster.driver.extraClassPath”参数值中添加服务端的依赖包路径,如“${BIGDATA_HOME}/FusionInsight_Spark2x_8
r会从NodeManager中获取数据,当数据量达到一个级别(10T级别),会出现NodeManager单点瓶颈(ShuffleService服务在NodeManager进程中),就会出现某些Task获取数据超时,从而出现该问题。 因此,当数据量达到10T级别以上的Spark任务