检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
MRS支持在大数据存储容量大、计算资源需要弹性扩展的场景下,用户将数据存储在OBS服务中,使用MRS集群仅作数据计算处理的存算分离模式,从而实现按需灵活扩展资源、低成本的海量数据分析方案。 大数据存算分离场景,请务必使用OBS并行文件系统(并行文件系统),使用普通对象桶会对集群性能产生较大影响。
在HBase连续对同一个表名做删除创建操作时出现创建表异常 问题 在HBase连续对同一个表名做删除创建操作时,可能出现创建表异常。 回答 执行过程:Disable Table > Drop Table > Create Table > Disable Table > Drop Table
配置MapReduce通过IAM委托访问OBS 参考配置MRS集群通过IAM委托对接OBS完成存算分离集群配置后,MapReduce服务还需参考本章节新增自定义配置。 MapReduce对接OBS 登录MRS管理控制台,单击集群名称进入集群详情页面。 选择“组件管理 > Mapr
在HBase连续对同一个表名做删除创建操作时出现创建表异常 问题 在HBase连续对同一个表名做删除创建操作时,可能出现创建表异常。 回答 执行过程:Disable Table > Drop Table > Create Table > Disable Table > Drop Table
在Linux环境中调测Spark应用 在程序代码完成开发后,您可以上传至Linux客户端环境中运行应用。使用Scala或Java语言开发的应用程序在Spark客户端的运行步骤是一样的。 使用Python开发的Spark应用程序无需打包成jar,只需将样例工程复制到编译机器上即可。
default 标签 - 等待桶创建好,单击桶名称,选择“文件 > 上传文件”,将数据文件上传至OBS并行文件系统内。 切换回MRS控制台,单击创建好的MRS集群名称,进入“概览”,单击“IAM用户同步”所在行的“单击同步”,等待约5分钟同步完成。 将数据文件上传HDFS。 在“文件管理”页签
s_bucket_name。 其中obs_bucket-name请使用实际的OBS桶名替换。若桶类型为“并行文件系统”需要再添加obs_bucket_name/tmp/路径,桶类型为“对象存储”则不需要添加obs_bucket_name/tmp/路径。 (可选)请求条件,暂不添加。
在Linux环境中调测Spark应用 在程序代码完成开发后,您可以上传至Linux客户端环境中运行应用。使用Scala或Java语言开发的应用程序在Spark客户端的运行步骤是一样的。 使用Python开发的Spark应用程序无需打包成jar,只需将样例工程复制到编译机器上即可。
log4j.properties 在文件中添加OBS日志级别配置: log4j.logger.org.apache.hadoop.fs.obs=WARN log4j.logger.com.obs=WARN 业务程序添加依赖包 在MRS HDFS客户端安装包中获取jar包:hadoop-
进入待导入数据的存储目录。 可以单击“新建”,创建新的文件夹目录,也可以选择在HDFS中已存在的文件夹。 单击“导入数据”,正确配置HDFS和OBS路径。 配置OBS或者HDFS路径时,单击“浏览”并选择文件目录,然后单击“确定”。 图2 导入数据 OBS路径地址说明: 必须以“obs://”开头。 不支持导入KMS加密的文件或程序。
调测Hive Python3样例程序 Python3样例工程的命令行形式运行 赋予“python3-examples”文件夹中脚本的可执行权限。在命令行终端执行以下命令: chmod +x python3-examples -R。 在python3-examples/pyCLI_sec
执行Kafka Topic创建操作时发现无法创建提示“NoAuthException” 问题背景与现象 在使用Kafka客户端命令创建Topic时,发现Topic无法被创建。 kafka-topics.sh --create --zookeeper 192.168.234.231:2181/kafka
Python3访问Hive样例程序 功能介绍 本章节介绍如何使用Python3连接Hive执行数据分析任务。 样例代码 以下分析任务示例在“hive-examples/python3-examples/pyCLI_nosec.py”文件中。 导入hive类 from pyhive
在缓存中找不到HDFS_DELEGATION_TOKEN如何处理 问题 安全模式下,为什么在缓存中找不到HDFS_DELEGATION_TOKEN? 回答 在MapReduce中,默认情况下,任务完成之后,HDFS_DELEGATION_TOKEN将会被删除。因此如果在下一个任务
多个字段时使用逗号分隔。 在“3.转换”设置数据传输过程中的转换操作。 确认Loader创建的数据操作作业中,源数据的值是否满足直接使用需求而不进行转换,例如大小写转换、截取、拼接和分隔。 满足需求,请单击“下一步”。 不满足需求,请执行6.a~6.d。 默认没有已创建的转换步骤
基于Python3的Hive样例程序 功能介绍 本章节介绍如何使用Python3连接Hive执行数据分析任务。 样例代码 以下分析任务示例在“hive-examples/python3-examples/pyCLI_nosec.py”文件中。 导入hive类 from pyhive
在MRS集群外客户端中执行kinit报错“Permission denied”如何处理? 问题现象 在MRS集群外节点上安装了客户端后并执行kinit命令报错如下: -bash kinit Permission denied 执行java命令也报错如下: -bash: /xxx/java:
象:out,使用out的write方法追加写入数据。 调用fSystem的open接口创建FSDataInputStream对象:in,使用in的read方法读取文件。 调用fSystem中的delete接口删除文件。 调用fSystem中的delete接口删除文件夹。 父主题:
Spark SQL表中,经常会存在很多小文件(大小远小于HDFS的块大小),每个小文件默认对应Spark中的一个Partition,即一个Task。在有很多小文件时,Spark会启动很多Task,此时当SQL逻辑中存在Shuffle操作时,会大大增加hash分桶数,严重影响系统性能。
如何限制存储在ZKstore中的应用程序诊断消息的大小 问题 如何限制存储在ZKstore中的应用程序诊断消息的大小? 回答 在某些情况下,已经观察到诊断消息可能无限增长。由于诊断消息存储在状态存储中,不建议允许诊断消息无限增长。因此,需要有一个属性参数用于设置诊断消息的最大大小。