检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用广播变量 操作场景 Broadcast(广播)可以把数据集合分发到每一个节点上,Spark任务在执行过程中要使用这个数据集合时,就会在本地查找Broadcast过来的数据集合。如果不使用Broadcast,每次任务需要数据集合时,都会把数据序列化到任务里面,不但耗时,还使任务变得很大。
配置Spark Core广播变量 操作场景 Broadcast(广播)可以把数据集合分发到每一个节点上,Spark任务在执行过程中要使用这个数据集合时,就会在本地查找Broadcast过来的数据集合。如果不使用Broadcast,每次任务需要数据集合时,都会把数据序列化到任务里面,不但耗时,还使任务变得很大。
配置Spark Core广播变量 操作场景 Broadcast(广播)可以把数据集合分发到每一个节点上,Spark任务在执行过程中要使用这个数据集合时,就会在本地查找Broadcast过来的数据集合。如果不使用Broadcast,每次任务需要数据集合时,都会把数据序列化到任务里面,不但耗时,还使任务变得很大。
管理CDL ENV变量 操作场景 如果需要将数据抓取至Hudi或者从Hudi抓取数据时,请执行该章节操作创建Hudi环境变量并进行管理。 前提条件 开启Kerberos认证的集群需已参考CDL用户权限管理创建具有CDL管理操作权限的用户。 操作步骤 使用具有CDL管理操作权限的用
查询SQL结果 功能介绍 在MRS集群中查询一条SQL的执行结果。 接口约束 无 调用方法 请参见如何调用API。 URI GET /v2/{project_id}/clusters/{cluster_id}/sql-execution/{sql_id} 表1 路径参数 参数 是否必选
描述 调用指定的存储过程。 存储过程由各个连接(connnectors)提供,实现数据操作或者管理任务。例如,系统连接器(System Connector)就定义了存储过程可以取消一个正在运行的查询。有些数据源,例如PostgreSQL,其系统有定义自己的存储过程,这与连接器定义
导出Doris查询结果集 本章节主要介绍如何使用SELECT INTO OUTFILE命令,将Doris查询结果集使用指定的文件格式导出到指定的存储系统中。 导出命令不会检查文件及文件路径是否存在、是否会自动创建路径、或是否会覆盖已存在文件,由远端存储系统的语义决定。 如果在导出
Hadoop组件jar包位置和环境变量的位置在哪里? hadoopstreaming.jar位置在/opt/share/hadoop-streaming-*目录下。其中*由Hadoop版本决定。 jdk环境变量:/opt/client/JDK/component_env Hadoop组件的环境变量位置:/
配置YARN-Client和YARN-Cluster不同模式下的环境变量 配置场景 当前,在YARN-Client和YARN-Cluster模式下,两种模式的客户端存在冲突的配置,即当客户端为一种模式的配置时,会导致在另一种模式下提交任务失败。 为避免出现如上情况,添加表1中的配
TEXTFILE类型文件使用ARC4压缩时查询结果乱码 问题现象 Hive查询结果表做压缩存储(ARC4),对结果表做select * 查询时返回结果为乱码。 可能原因 Hive默认压缩格式不是ARC4格式或者未开启输出压缩。 解决方案 在select结果乱码时,在beeline中进行如下设置。
Flume客户端安装目录/fusioninsight-flume-Flume组件版本号/conf 在该目录下的“flume-env.sh”文件中添加环境变量。 格式: export 变量名=变量值 示例: JAVA_OPTS="-Xms2G -Xmx4G -XX:CMSFullGCsBeforeCompaction=1
如何在Flume配置文件中使用环境变量 以root用户登录安装Flume客户端所在节点。 切换到以下目录。 cd Flume客户端安装目录/fusioninsight-flume-Flume组件版本号/conf 在该目录下的“flume-env.sh”文件中添加环境变量。 格式: export 变量名=变量值
在Hue界面中查询Oozie作业结果 操作场景 提交作业后,可以通过Hue界面查看具体作业的执行情况。 操作步骤 访问Hue WebUI,请参考访问Hue WebUI界面。 单击菜单左侧的,在打开的页面中可以查看Workflow、计划、Bundles任务的相关信息。 默认显示当前集群的所有作业。
在Hue界面中查询Oozie作业结果 操作场景 提交作业后,可以通过Hue界面查看具体作业的执行情况。 操作步骤 访问Hue WebUI,请参考访问Hue WebUI界面。 单击菜单左侧的,在打开的页面中可以查看Workflow、计划、Bundles任务的相关信息。 默认显示当前集群的所有作业。
配置YARN-Client和YARN-Cluster不同模式下的环境变量 配置场景 当前,在YARN-Client和YARN-Cluster模式下,两种模式的客户端存在冲突的配置,即当客户端为一种模式的配置时,会导致在另一种模式下提交任务失败。 为避免出现如上情况,添加表1中的配
使用HBase BulkLoad导入数据成功,执行相同的查询时却返回不同的结果 问题 在使用HBase bulkload导入数据时,如果导入的数据存在相同的rowkey值,数据可以导入成功,但是执行相同的查询时可能返回不同的结果。 回答 正常情况下,相同rowkey值的数据加载到H
使用HBase BulkLoad导入数据成功,执行相同的查询时却可能返回不同的结果 问题 在使用HBase bulkload导入数据时,如果导入的数据存在相同的rowkey值,数据可以导入成功,但是执行相同的查询时可能返回不同的结果。 回答 正常情况下,相同rowkey值的数据加载到
集群时设置的root密码。 执行如下命令,配置环境变量。 source /opt/client/bigdata_env 使用Alluxio Shell Alluxio shell包含多种与Alluxio交互的命令行操作。 要查看文件系统操作命令列表。 alluxio fs 使用l
获取SQL结果 功能介绍 在MRS集群中查询SparkSql和SparkScript两种类型作业的SQL语句运行完成后返回的查询结果。 接口约束 无 调用方法 请参见如何调用API。 URI GET /v2/{project_id}/clusters/{cluster_id}/j
trx_dte_par='2016-6-30'”时没有查询结果,当过滤条件为“where trx_dte_par='2016-06-30'”时有查询结果。 图1 示例 回答 在Spark SQL查询语句中,当查询条件中含有日期格式的字符串时,Spark SQL不会对它做日期格式的检查,就是把它当做普通的字符串进行