检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
图1 reimport projects 编译运行程序。 放置好配置文件,并修改代码匹配登录用户后,文件列表如下图所示。 图2 doris-example待编译目录列表 编译方式有以下两种: 方法一 选择“Maven > 样例工程名称 > Lifecycle > clean”,
spark.examples.FemaleInfoCollection: object FemaleInfoCollection { //表结构,后面用来将文本数据映射为df case class FemaleInfo(name: String, gender: String
storeKey=true debug=true; }; 文件内容中的test@<系统域名>为示例,实际操作时请做相应修改。 在Linux环境中添加样例工程运行所需的classpath,例如: export YARN_USER_CLASSPATH=/opt/client/conf:/o
spark.examples.FemaleInfoCollection: object FemaleInfoCollection { //表结构,后面用来将文本数据映射为df case class FemaleInfo(name: String, gender: String
wKey构造成rdd,然后通过HBaseContext的bulkLoad接口将rdd写入HFile中。将生成的HFile文件导入HBase表的操作采用如下格式的命令,不属于本接口范围,不在此进行详细说明: hbase org.apache.hadoop.hbase.mapreduce
STD压缩格式的表。Hive支持基于ZSTD压缩的存储格式有常见的ORC,RCFile,TextFile,JsonFile,Parquet,Squence,CSV。 本特性仅适用于MRS 3.1.2及之后版本。 ZSTD压缩格式的建表方式如下: ORC存储格式建表时可指定TBLPROPERTIES("orc
start="row_start":表示开始行号为“row_start”。 -Dupdate.rowkey.stop="row_stop":表示结束行号为“row_stop”。 -Dupdate.hfile.output=/user/output/:表示执行结果输出路径为“/user/output/”。
Spark SQL企业级能力增强 配置矢量化读取ORC数据 配置过滤掉分区表中路径不存在的分区 配置Drop Partition命令支持批量删除 配置Hive表分区动态覆盖 配置Spark SQL开启Adaptive Execution特性 配置Spark SQL语法支持关联子查询不带聚合函数
配置多并发客户端连接JDBCServer 配置SparkSQL的分块个数 Spark动态分区插入场景内存优化 小文件优化 聚合算法优化 Datasource表优化 合并CBO优化 多级嵌套子查询以及混合Join的SQL调优 父主题: 使用Spark/Spark2x
> 权限 > 角色”,添加一个拥有Hive管理员权限的角色。 在FusionInsight Manager页面,选择“系统 > 权限 > 用户 ”。 在指定用户对应的“操作”列单击“修改”。 为用户绑定拥有Hive管理员权限的角色,并单击“确定”完成权限添加。 父主题: 使用Hive
重启服务”,重启Oozie服务。 创建工作流,请参考使用Hue创建工作流。 添加互信操作,请参考配置Oozie节点间用户互信。 在工作流编辑页面,选择“Ssh”按钮,将其拖到操作区中。 在弹出的“Ssh”窗口中配置以下参数并单击“添加”。 User and Host:User为3中配置互信的用户
重启服务”,重启Oozie服务。 创建工作流,请参考使用Hue创建工作流。 添加互信操作,请参考配置Oozie节点间用户互信。 在工作流编辑页面,选择“Ssh”按钮,将其拖到操作区中。 在弹出的“Ssh”窗口中配置以下参数并单击“添加”。 User and Host:User为3中配置互信的用户
在集群外节点安装客户端(MRS 3.3.1之前版本) 准备一个用于安装MRS集群客户端的Linux弹性云服务器。 云服务器操作系统及版本建议如下: 表2 操作系统参考列表 CPU架构 操作系统 支持的版本号 x86计算 Euler EulerOS 2.5 SUSE SUSE Linux Enterprise
参数中自定义添加。 具体的配置方法如下: 用户可登录FusionInsight Manager,单击“集群 > 待操作集群的名称 > 服务 > Yarn > 配置”,单击“全部配置”,单击“NodeManager > 系统”,在“GC_OPTS”参数中修改配置。 表1 参数说明 参数
wKey构造成rdd,然后通过HBaseContext的bulkLoad接口将rdd写入HFile中。将生成的HFile文件导入HBase表的操作采用如下格式的命令,不属于本接口范围,不在此进行详细说明: hbase org.apache.hadoop.hbase.mapreduce
Kudu应用开发简介 Kudu简介 Kudu是专为Apache Hadoop平台开发的列式存储管理器,具有Hadoop生态系统应用程序的共同技术特性:在通用的商用硬件上运行,可水平扩展,提供高可用性。 Kudu的设计具有以下优点: 能够快速处理OLAP工作负载。 支持与MapRe
如果是安全集群,使用以下命令进行用户认证,如果当前集群未启用Kerberos认证,则无需执行此命令。 kinit 用户名 在Flink命令行显式添加要访问的OBS文件系统。 echo -e 'test' >/tmp/test hdfs dfs -mkdir -p obs://并行文件系统名称/tmp/flinkjob
Spark SQL企业级能力增强 配置矢量化读取ORC数据 配置过滤掉分区表中路径不存在的分区 配置Hive表分区动态覆盖 配置Spark SQL开启Adaptive Execution特性 配置SparkSQL的分块个数 父主题: 使用Spark2x(MRS 3.x及之后版本)
spark自带的jar都在“spark客户端目录/jars/”。 确认是否存在多个jar包拥有这个类。 如果是其他依赖包,可能是没有使用--jars添加到任务里面。 如果是已经添加到任务里面,但是依旧没有取到,可能是因为配置文件的driver或者executor的classpath配置不正确,可以查看日志确认是否加载到环境。
spark自带的jar都在“spark客户端目录/jars/”。 确认是否存在多个jar包拥有这个类。 如果是其他依赖包,可能是没有使用--jars添加到任务里面。 如果是已经添加到任务里面,但是依旧没有取到,可能是因为配置文件的driver或者executor的classpath配置不正确,可以查看日志确认是否加载到环境。