检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ase /user/developuser/myjobs/apps/spark2x/hive 将表格中的文件上传到对应目录,请参考表2。 表2 文件上传列表 初始文件路径 文件 上传目标目录 Spark客户端目录(如“/opt/client/Spark2x/spark/conf”)
根据6中的文件数据量和7中NameNode配置的非堆参数,检查当前配置的非堆内存是否不合理。 是,执行9。 否,执行12。 HDFS的文件对象数量(filesystem objects=files+blocks)和NameNode配置的JVM参数的对应关系建议如下: 文件对象数量达到10
开发HDFS应用 HDFS样例程序开发思路 初始化HDFS 创建HDFS目录 创建HDFS文件并写入内容 追加信息到HDFS指定文件 读取HDFS指定文件内容 删除HDFS指定文件 删除HDFS指定目录 创建HDFS多线程任务 配置HDFS存储策略 配置HDFS同分布策略(Colocation)
序号对ORC文件进行解析,因此,Loader的输出字段名和Hive表中的字段名需要保持一致。 enum 是 CSV Hive文件压缩格式 在下拉菜单中选择Hive表文件的压缩格式,未配置或选择“NONE”表示不压缩数据。 enum 是 NONE Hive ORC文件版本 通过该字
“Spark输出”算子,用于配置已生成的字段输出到SparkSQL表的列。 输入与输出 输入:需要输出的字段 输出:SparkSQL表 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 Spark文件存储格式 配置SparkSQL表文件的存储格式(目前支持四种格式:CSV、ORC、RC和PARQUET)。
序号对ORC文件进行解析,因此,Loader的输出字段名和Hive表中的字段名需要保持一致。 enum 是 CSV Hive文件压缩格式 在下拉菜单中选择Hive表文件的压缩格式,未配置或选择“NONE”表示不压缩数据。 enum 是 NONE Hive ORC文件版本 通过该字
选择准备上传配置文件的节点行的“Flume”角色,单击“实例配置”页面“flume.config.file”参数后的“上传文件”,选择“properties.properties”文件完成操作。 图4 上传文件 每个Flume实例均可以上传单独的服务端配置文件。 更新配置文件需要按照此
该目录下需关注文件如表1所示。 表1 文件说明 文件名称 描述 job.properties 工作流的参数变量定义文件。 workflow.xml 工作流的规则定制文件。 lib 工作流运行依赖的jar包目录。 执行以下命令,编辑“job.properties”文件。 vi job
参考获取MRS应用开发样例工程,获取样例代码解压目录中“src”目录下的样例工程文件夹“mapreduce-example-security”。 将在准备MRS应用开发用户时得到的user.keytab和krb5.conf文件以及准备运行环境时获取的集群配置文件复制到样例工程的“conf”目录下。 导入样例工程到IntelliJ
l命令,依次安装dependency_python3.x文件夹下的egg文件。如: /usr/local/bin/easy_install future-0.18.2-py3.8.egg 输出以下关键内容表示安装egg文件成功。 Finished processing dependencies
关配置文件,并将配置文件导入到样例工程的配置文件目录中(通常为“conf”文件夹)。 在应用开发过程中,如需在本地Windows系统中调测应用程序,需要复制解压目录下的“hosts”文件中的内容到客户端所在节点的hosts文件中,确保本地机器能与解压目录下“hosts”文件中所列出的各主机在网络上互通。
使用对应的easy_install命令,依次安装dependency_python3.x文件夹下的egg文件。如: /usr/local/bin/easy_install future-0.18.2-py3.8.egg 输出以下关键内容表示安装egg文件成功。 Finished processing dependencies
使用对应的easy_install命令,依次安装dependency_python3.x文件夹下的egg文件。如: /usr/local/bin/easy_install future-0.18.2-py3.8.egg 输出以下关键内容表示安装egg文件成功。 Finished processing dependencies
alnode/hacluster/current),查看序号从第一步获取到的序号开始的edits文件,看是否有不连续的情况(即前一个edits文件的最后一个序号和后一个edits文件的第一个序号不是连续的,如下图中的edits_0000000000013259231-000000
下载HBase配置文件到本地,并解压。 登录目的端HBase集群的FusionInsight Manager,选择“集群 > 服务 > HBase”。 选择“更多 > 下载客户端”。 图1 下载HBase客户端 下载HBase配置文件,客户端类型选择仅配置文件。 图2 下载HBase配置文件
自定义”修改HiveServer角色的“hive-site.xml”自定义配置文件,增加HBase配置文件的如下配置项。 从已下载的HBase客户端配置文件的hbase-site.xml中,搜索并添加如下配置项及其取值到HiveServer中。 hbase.security.authentication hbase
如果使用keytab登录方式,按3获取keytab文件;如果使用票据方式,则无需获取额外的配置文件。 获取到的keytab文件默认文件名为user.keytab,若用户需要修改,可直接修改文件名,但在提交任务时需要额外上传修改后的文件名作为参数。 Eclipse代码样例 创建Topology。
的数据文件,且文件属组是userB,当userA查询tableA时,会读取外表数据目录下的所有的文件,此时会因没有userB生成的文件的读取权限而查询失败。 实际上,不只是查询场景,还有其他场景也会出现问题。例如:inset overwrite操作将会把此目录下的其他表文件也一起复写。
“Spark输出”算子,用于配置已生成的字段输出到SparkSQL表的列。 输入与输出 输入:需要输出的字段 输出:SparkSQL表 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 Spark文件存储格式 配置SparkSQL表文件的存储格式(目前支持四种格式:CSV、ORC、RC和PARQUET)。
完整客户端:包含完整客户端软件包及配置文件,通常选择该选项。 仅配置文件:仅下载客户端配置文件,适用于应用开发任务中,完整客户端已下载并安装后,管理员通过Manager界面修改了组件服务端配置,开发人员需要更新客户端配置文件的场景。 完整客户端 选择平台类型 客户端类型必须与待安装客户端的节点架构匹配,否则客户端会安装失败。