检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
算子都会使用用户自定义的函数对每个节点本地的相同key进行预聚合。而groupByKey算子是不会进行预聚合的,全量的数据会在集群的各个节点之间分发和传输,性能相对来说比较差。 使用mapPartitions替代普通map。 mapPartitions类的算子,一次函数调用会处理
基于安全考虑,服务端只支持TLS V1.2及以上的加密协议。 安装和配置IDEA 用于开发Oozie应用程序的工具。版本要求:支持JDK1.8以上的版本。 说明: 若使用IBM JDK,请确保IDEA中的JDK配置为IBM JDK。 若使用Oracle JDK,请确保IDEA中的JDK配置为Oracle
Impala应用开发常用概念 客户端 客户端直接面向用户,可通过Java API、Thrift API访问服务端进行Impala的相关操作。本文中的Impala客户端特指Impala client的安装目录,里面包含通过Java API访问Impala的样例代码。 HiveQL语言
Impala应用开发常用概念 客户端 客户端直接面向用户,可通过Java API、Thrift API访问服务端进行Impala的相关操作。本文中的Impala客户端特指Impala client的安装目录,里面包含通过Java API访问Impala的样例代码。 HiveQL语言
言开发出来的,且Scala语言具有简洁易懂的特性,推荐用户使用Scala语言进行Spark应用程序开发。 按不同的语言分,Spark的API接口如表1所示。 表1 Spark API接口 接口 说明 Scala API 提供Scala语言的API。由于Scala语言的简洁易懂,推荐用户使用Scala接口进行程序开发。
通。 安装JDK 开发和运行环境的基本配置,版本要求如下: 服务端和客户端仅支持自带的OpenJDK,版本为1.8.0_272,不允许替换。 对于客户应用需引用SDK类的Jar包运行在客户应用进程中的。 X86客户端:Oracle JDK:支持1.8版本;IBM JDK:支持1.8
通。 安装JDK 开发和运行环境的基本配置,版本要求如下: 服务端和客户端仅支持自带的OpenJDK,版本为1.8.0_272,不允许替换。 对于客户应用需引用SDK类的Jar包运行在客户应用进程中的: X86客户端:Oracle JDK:支持1.8版本;IBM JDK:支持1.8
开发HetuEngine应用 HetuEngine样例程序开发思路 HetuEngine样例程序(Java) HetuEngine样例程序(Python3) 父主题: HetuEngine开发指南(安全模式)
_SUCCESS part-00000 可以通过Hue的文件浏览器或者通过HDFS如下命令行查看: hdfs dfs -ls /user/developuser/examples/output-data/map-reduce 在Windows下面执行的时候可能会出现下面的异常,但是不影响业务:
开发Hive应用 Hive JDBC访问样例程序 HCatalog访问Hive样例程序 Python访问Hive样例程序 Python3访问Hive样例程序 父主题: Hive开发指南(普通模式)
安装JDK 开发和运行环境的基本配置。版本要求如下: 服务端和客户端仅支持自带的OpenJDK,版本为1.8.0_272,不允许替换。 对于客户应用需引用SDK类的Jar包运行在客户应用进程中的。 X86客户端:Oracle JDK:支持1.8版本;IBM JDK:支持1.8.5
IDEA中的JDK配置为Open JDK。 不同的IntelliJ IDEA不要使用相同的workspace和相同路径下的示例工程。 安装Maven 开发环境的基本配置。用于项目管理,贯穿软件开发生命周期。 准备开发用户 参考准备MRS应用开发用户进行操作,准备用于应用开发的集群用户并授予相应权限。
HDFS不适用于存储大量小文件 HDFS不适用于存储大量的小文件,因为大量小文件的元数据会占用NameNode的大量内存。 HDFS中数据的备份数量3份即可 DataNode数据备份数量3份即可,增加备份数量不能提升系统效率,只会提升系统数据的安全系数;在某个节点损坏时,该节点上的数据会被均衡到其他节点上。 HDFS定期镜像备份
test(securityModeUrl);[3] [1]userdir获取的是编译后资源路径下conf目录的路径。 [2]修改restHostName为待访问的RestServer实例所在节点IP地址,并将访问节点IP配置到运行样例代码的本机hosts文件中。 RestServer
Impalad(Coordinator)角色的jvm内存要大于或等于Catalog角色的jvm内存 Impala的元数据存放在内存中,Impalad需要从Catalog同步全量元数据,要保证Impala的jvm内存大于Catalog的jvm内存,才可以容纳下这些元数据。 建表时分
HDFS样例工程的配置文件目录中(通常为“conf”文件夹)。 在应用开发过程中,如需在本地Windows系统中调测应用程序,需要复制解压目录下的“hosts”文件中的内容到客户端所在节点的hosts文件中,确保本地机器能与解压目录下“hosts”文件中所列出的各主机在网络上互通。
HBase应用开发样例工程介绍 MRS样例工程获取地址为https://github.com/huaweicloud/huaweicloud-mrs-example,切换分支为与MRS集群相匹配的版本分支,然后下载压缩包到本地后解压,即可获取各组件对应的样例代码工程。 当前MRS提供以下HBase相关样例工程:
HBase应用开发样例工程介绍 MRS样例工程获取地址为https://github.com/huaweicloud/huaweicloud-mrs-example,切换分支为与MRS集群相匹配的版本分支,然后下载压缩包到本地后解压,即可获取各组件对应的样例代码工程。 当前MRS提供以下HBase相关样例工程:
应用开发类 如何准备MRS的数据源? MRS是否支持通过Hive的HBase外表将数据写入到HBase? Hive样例工程中的com.huawei.gaussc10依赖包在哪里下载? MRS集群上层应用开发是否支持Python? OpenTSDB是否支持Python的接口? 如何获取Spark
HDFS应用开发规则 HDFS NameNode元数据存储路径 NameNode元数据信息的默认存储路径为“${BIGDATA_DATA_HOME}/namenode/data”,该参数用于确定HDFS文件系统的元数据信息的保存路径。 HDFS需要开启NameNode镜像备份 NameNode的镜像备份参数为“fs