正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置“Metastore配置”,参数配置请参考表2。 表2 Metastore配置 参数 描述 取值样例 Metastore URL 数据源的Metastore的URL。获取方法请参考3。 thrift://10.92.8.42:21088,thrift://10.92.8.43:21088,thrift://10
的查询并发会对文件系统产生较大的磁盘压力。当前HetuEngine默认支持将中间数据缓冲至HDFS文件系统的临时目录中。存算分离场景对接OBS文件系统时,也能够支持TASK容错,但是中间数据仍然落盘至HDFS临时目录中。 集群默认会在查询结束时完成缓冲区文件清理,且每小时检测并清
huawei.bigdata.spark.examples.HBaseBulkLoadPythonExample') # 创建类实例并调用方法,传递sc._jsc参数 spark._jvm.HBaseBulkLoadPythonExample().hbaseBulkLoad(spark
'com.huawei.bigdata.spark.examples.datasources.HBaseSource') # 创建类实例并调用方法,传递sc._jsc参数 spark._jvm.HBaseSource().execute(spark._jsc) # 停止SparkSession
spark.examples.hbasecontext.JavaHBaseForEachPartitionExample') # 创建类实例并调用方法,传递sc._jsc参数 spark._jvm.JavaHBaseForEachPartitionExample().execute(spark
everyone.if.no.acl.found”参数值设置为true; 如果不设置此参数,操作会报错。 Kafka集群broker实例IP获取方法如下: 登录FusionInsight Manager,然后选择“集群 > 服务 > Kafka”。单击“实例”,查看Kafka角色实例的IP地址。
kafka集群broker实例IP2:9092,kafka集群broker实例IP3:9092。 Kafka集群broker实例IP获取方法如下: 登录FusionInsight Manager页面,选择“集群 > 服务 > Kafka”。单击“实例”,查看Kafka角色实例的IP地址。
图1 示例 创建一个从SFTP服务器导入数据到HDFS的Loader作业,具体操作请参见典型场景:从SFTP服务器导入数据到HDFS/OBS。 使用安装客户端的用户登录客户端所在节点。 执行以下命令,进入schedule-tool工具的conf目录。例如,Loader客户端安装
图1 示例 创建一个从SFTP服务器导入数据到HDFS的Loader作业,具体操作请参见使用Loader从SFTP服务器导入数据到HDFS/OBS。 使用安装客户端的用户登录客户端所在节点。 执行以下命令,进入schedule-tool工具的conf目录。例如,Loader客户端安装
spark.examples.hbasecontext.JavaHBaseMapPartitionExample') # 创建类实例并调用方法,传递sc._jsc参数 spark._jvm.JavaHBaseMapPartitionExample().execute(spark._jsc
何处理。 说明: 文件类型选择“TEXT_FILE”或“SEQUENCE_FILE”导入时,Loader会自动根据文件的后缀选择对应的解压方法,对文件进行解压。 TEXT_FILE 文件分割方式 选择按文件或大小分割源文件,作为数据导出的MapReduce任务中各个map的输入文件。
算子输入、输出参数设置 输入类型 输出类型 CSV文件输入 Hive输出 HTML输入 Hive输出 固定宽度文件输入 Hive输出 图3 算子操作方法示意 设置数据保存信息并运行作业 单击“下一步”,进入“输出设置”界面,在“存储类型”选择“HIVE”,设置数据保存方式。 表4 输出设置参数
'com.huawei.bigdata.spark.examples.datasources.AvroSource') # 创建类实例并调用方法,传递sc._jsc参数 spark._jvm.AvroSource().execute(spark._jsc) # 停止SparkSession
算子的选择和参数设置具体请参考算子帮助及表3。 表3 算子输入、输出参数设置 输入类型 输出类型 表输入 HBase输出 图3 算子操作方法示意 设置数据保存信息并运行作业 单击“下一步”,进入“输出设置”界面,根据实际场景在“存储类型”选择“HBASE_BULKLOAD”或“
和参数设置具体请参考Loader算子帮助及表3。 表3 算子输入、输出参数设置 输入类型 输出类型 表输入 HBase输出 图3 算子操作方法示意 设置数据保存信息并运行作业 单击“下一步”,进入“输出设置”界面,根据实际场景在“存储类型”选择“HBASE_BULKLOAD”或“
将编译后的jar包上传到客户端节点,例如上传到“/opt/client/lib”目录下。 如果本地网络无法直接连接客户端节点上传文件,可先将jar文件或者源数据上传至OBS文件系统中,然后通过MRS管理控制台集群内的“文件管理”页面导入HDFS中,再通过HDFS客户端使用hdfs dfs -get命令下载到客户端节点本地。
allow-access-address: xx.xx.xxx.xxx,xx.xx.xxx.xxx,xx.xx.xxx.xxx 客户端安装节点的业务IP获取方法: 集群内节点: 登录MapReduce服务管理控制台,选择“现有集群”,选中当前的集群并单击集群名,进入集群信息页面。 在“节点管理”中查看安装客户端所在的节点IP。
IDEA中),运行此样例代码需要设置运行用户,设置运行用户有两种方式,添加环境变量HADOOP_USER_NAME或者修改代码。设置环境变量方法具体如下: 选中需要运行的样例程序HdfsExample.java或者ColocationExample.java,右键工程,选择“Run
运行一个名字为CLASSNAME的类。 top 运行集群利用率监控工具。 -Dmapreduce.job.hdfs-servers 如果对接了OBS,而服务端依然使用HDFS,那么需要显式在命令行使用该参数指定HDFS的地址。格式为hdfs://{NAMESERVICE}。其中{NAMESERVICE}为hdfs