检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
table t1(col1 int); 执行insert into t1(col1) values(X);命令向t1中分别插入如下数据,X表示待插入数据的值。 +----------+--+ | t1.col1 | +----------+--+
jdbc.HiveDriver").newInstance(); 获取数据库连接 使用JDK的驱动管理类java.sql.DriverManager来获取一个Impalad的数据库连接。 Impalad的数据库URL为url="jdbc:hive2://xxx.xxx.xxx.x
loader-tool工具使用示例 schedule-tool工具使用指导 schedule-tool工具使用示例 使用loader-backup工具备份作业数据 开源sqoop-shell工具使用指导 开源sqoop-shell工具使用示例(SFTP - HDFS) 开源sqoop-shell工具使用示例(Oracle
"obs://testhudi/cow_table/"是OBS路径,testhudi是并行文件系统名称,请根据实际情况修改。 使用datasource查看表建立成功,数据正常。 val roViewDF = spark. read. format("org.apache.hudi"). load(basePath
jdbc.HiveDriver").newInstance(); 获取数据库连接 使用JDK的驱动管理类java.sql.DriverManager来获取一个Impalad的数据库连接。 Impalad的数据库URL为url="jdbc:hive2://xxx.xxx.xxx.x
sh {client_install_home} 进入客户端安装目录,执行如下命令初始化环境变量。 source bigdata_env 将5.2.2-准备开发用户中下载的user.keytab和krb5.conf文件拷贝到Linux环境的“/opt/conf”目录下,可参考5.4
e异常时,无法合并editlog,因此主NameNode在下次启动的时候,需要加载较多editlog,需要大量内存,并且耗时较长。 合并元数据的周期由以下参数确定,即如果NameNode运行30分钟或者HDFS操作100万次,均会执行checkpoint。 dfs.namenode
权限和Hive表的读写权限。 选择“Hive Read Write Privileges”Hive表的读写权限,此时显示列Hive中的所有数据库。 勾选角色需要的权限并单击“确定”完成角色创建。 在MRS Manager页面,选择“系统配置 > 用户管理”。 在已创建的新用户对应的“操作”列单击“修改”。
Spark SQL性能调优 Spark SQL join优化 优化数据倾斜场景下的Spark SQL性能 优化小文件场景下的Spark SQL性能 Spark INSERT SELECT语句调优 配置多并发客户端连接JDBCServer 配置SparkSQL的分块个数 Spark动态分区插入场景内存优化
HetuEngine计算实例的queryInfo日志,SQL运行的统计信息。 清理日志 cleanup.log 清理脚本日志。 初始化日志 hetupg.log 元数据初始化日志。 ranger-trino-plugin-enable.log Ranger插件集成到HetuEngine内核的操作日志。 客户端日志
删除表。 DROP TABLE MY_TABLE; UPSERT VALUES 插入/修改数据。 UPSERT INTO MY_TABLE VALUES(1,'abc'); SELECT 查询数据。 SELECT * FROM MY_TABLE; CREATE INDEX 创建全局索引。
dir被设置为/tmp,因此默认使用系统/tmp目录。 但存在一些特殊情况,如driver进程未正常退出,比如被kill -9命令结束进程,或者Java虚拟机直接崩溃等场景,导致driver的退出流程未正常执行,则可能导致该部分目录无法被正常清理,残留在系统中。 当前只有yarn-client模
dir被设置为/tmp,因此默认使用系统/tmp目录。 但存在一些特殊情况,如driver进程未正常退出,比如被kill -9命令结束进程,或者Java虚拟机直接崩溃等场景,导致driver的退出流程未正常执行,则可能导致该部分目录无法被正常清理,残留在系统中。 当前只有yarn-client模
Spark Core性能调优 Spark Core数据序列化 Spark Core内存调优 设置Spark Core并行度 配置Spark Core广播变量 配置Spark Executor堆内存参数 使用External Shuffle Service提升Spark Core性能
配置Yarn权限控制开关 手动指定运行Yarn任务的用户 配置AM失败重试次数 配置AM自动调整分配内存 配置AM作业自动保留 配置Yarn数据访问通道协议 配置自定义调度器的WebUI 配置NodeManager角色实例使用的资源 配置ResourceManager重启后自动加载Container信息
Manager首页,选择“集群 > 服务 > Spark2x > 配置”,单击“全部配置”,选择“IndexServer2x > 性能”,将“spark.driver.extraJavaOptions”参数中-XX:MaxMetaspaceSize的值根据如下原则调整:告警时间段
reducer.class Reducer类名 mapred.input.dir MapReduce处理数据的输入目录 mapred.output.dir MapReduce处理后结果数据输出目录 mapred.map.tasks MapReduce map任务个数 “${变量名}”表示:该值来自“job
fault.tolerance.rate 容错率。 值大于0时使能容错机制。使能容错机制时建议将作业的Map数设置为大于等于3,推荐在作业数据量大的场景下使用。 0 0~1.0 loader.input.field.separator 默认的输入字段分割符,需要配置输入与输出转换
reducer.class Reducer类名 mapred.input.dir MapReduce处理数据的输入目录 mapred.output.dir MapReduce处理后结果数据输出目录 mapred.map.tasks MapReduce map任务个数 “${变量名}”表示:该值来自“job
reducer.class Reducer类名 mapred.input.dir MapReduce处理数据的输入目录 mapred.output.dir MapReduce处理后结果数据输出目录 mapred.map.tasks MapReduce map任务个数 “${变量名}”表示:该值来自job