检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在进行应用开发时,要准备的本地开发环境如表1所示。同时需要准备运行调测的Linux环境,用于验证应用程序运行是否正常。 表1 开发环境 准备项 说明 操作系统 开发环境:Windows系统,推荐Windows7以上版本。 运行环境:Linux系统。 安装JDK和Maven 开发环境的基本配置:Java
文件压缩可以减少储存文件的空间,并且提高数据从磁盘读取和网络传输的速度。HDFS有Gzip和Snappy这两种默认压缩格式。本章节为HDFS新增加的压缩格式LZC(Lempel-Ziv Compression)提供配置方法。这种压缩格式增强了Hadoop压缩能力。有关Snappy的详细信息,请参阅http://code
alue> 如果当前的应用开发工程配置项中包含该配置项,则应用开发程序还需要引入Jar包“phoenix-core-*.jar”。此Jar包可以从HBase客户端安装目录下的“HBase/hbase/lib”获取。 如果不想引入该Jar包,请将应用开发工程的配置文件“hbase-site
面。 如果修改了集群的域名,那么core-site.xml将发生变化,需要下载最新的core-site.xml并放入到打包hive二次开发样例代码进程的classpath路径下面。 解决办法 下载集群Hive最新的客户端,获取最新的“core-site.xml”。 将core-site
Oozie应用开发常用概念 流程定义文件 描述业务逻辑的XML文件,包括“workflow.xml”、“coordinator.xml”、“bundle.xml”三类,最终由Oozie引擎解析并执行。 流程属性文件 流程运行期间的参数配置文件,对应文件名为“job.properti
选择“待操作集群的名称 > Hive > Hive读写权限”,勾选“default”的 “查询”、“插入”、“建表”、“递归”。单击“确定”保存。 编辑角色,在“配置资源权限”的表格中选择“待操作集群的名称 > Yarn > 调度队列 > root”,勾选default的“提交”,单击“确定”保存。
(state=,code=1) 原因分析 当前登录的用户不具备操作此命令的权限。 解决方案 如果登录的当前用户具有admin角色,请用set role admin来切换成admin角色操作。如果不具备admin角色,在Manager页面中给用户绑定对应角色的权限。 父主题: 使用Hive
系统”页面单击对应的文件系统名称,在“文件”页面单击文件名称,文件“链接”即path路径,如图1所示。 图1 文件路径 ak:参数可选,具备访问OBS权限的ak。 sk:参数可选,具备访问OBS权限的sk。 format :文件的格式。 structure:表的结构。 compression:参数可选,压缩类型。
Oozie应用开发常用概念 流程定义文件 描述业务逻辑的XML文件,包括“workflow.xml”、“coordinator.xml”、“bundle.xml”三类,最终由Oozie引擎解析并执行。 流程属性文件 流程运行期间的参数配置文件,对应文件名为“job.properti
ServerRpcControllerFactory</value> 如果当前的应用开发工程配置项中包含该配置项,则应用开发程序还需要引入Jar包“phoenix-core-5.0.0-HBase-2.0-hw-ei.jar”。此Jar包可以从HBase客户端安装目录下的“HBase/hbase/lib”获取。 如
WebUI无法正常刷新损坏数据的信息 NameNode节点长时间满负载导致客户端无响应 为什么主NameNode重启后系统出现双备现象 为什么DataNode无法正常上报数据块 是否可以手动调整DataNode数据存储目录 DataNode的容量计算出错如何处理 为什么存储小文件过程中,缓存中的数据会丢失
timeout.period 客户端和RegionServer端参数,表示客户端执行scan的租约超时时间。建议设置为60000ms的整数倍,在读高负载情况下可以适当调大。单位:毫秒。 60000 hfile.block.cache.size 数据缓存所占的RegionServer GC
timeout.period 客户端和RegionServer服务端参数,表示客户端执行scan的租约超时时间。建议设置为60000ms的整数倍,在读高负载情况下可以适当调大。单位:毫秒。 60000 hfile.block.cache.size 数据缓存所占的RegionServer GC
假定某个业务Kafka每30秒就会收到5个用户的消费记录。Hbase的table1表存储用户历史消费的金额信息。 现table1表有10条记录,表示有用户名分别为1-10的用户,用户的历史消费金额初始化都是0元。 基于某些业务要求,开发的Spark应用程序实现如下功能: 实时累加计算用户的消费金额信息:即用
alue> 如果当前的应用开发工程配置项中包含该配置项,则应用开发程序还需要引入Jar包“phoenix-core-*.jar”。此Jar包可以从HBase客户端安装目录下的“HBase/hbase/lib”获取。 如果不想引入该Jar包,请将应用开发工程的配置文件“hbase-site
MapReduce常见问题 ResourceManager进行主备切换后,任务中断后运行时间过长 MapReduce任务长时间无进展 为什么运行任务时客户端不可用 在缓存中找不到HDFS_DELEGATION_TOKEN如何处理 如何在提交MapReduce任务时设置任务优先级 MapReduc
可以很好的解决该问题,实现真正的部分更新。 按建表时按需求,将表中的列切分成不同的sequence组。每一个sequence组包含的列是否更新,由该sequence组的precombine字段决定,不同sequence组相互不影响。 使用约束 由于Hudi OCC特性的限制,当前不建议多流并发写Hudi表。
如果当前的应用开发工程配置项中包含该配置项,则应用开发程序还需要引入Jar包“phoenix-core-4.4.0-HBase-1.0.jar”。此Jar包可以从HBase客户端安装目录下的“HBase/hbase/lib”获取。 如果不想引入该Jar包,请将应用开发工程的配置文件“hbase-site
发的Reduce(化简)函数,用来保证所有映射的键值对共享相同的键组。 图1 分布式批处理引擎 MapReduce是用于并行处理大数据集的软件框架。MapReduce的根源是函数性编程中的Map和Reduce函数。Map函数接受一组数据并将其转换为一个键/值对列表,输入域中的每个
ServerRpcControllerFactory</value> 如果当前的应用开发工程配置项中包含该配置项,则应用开发程序还需要引入Jar包“phoenix-core-5.0.0-HBase-2.0-hw-ei.jar”。此Jar包可以从HBase客户端安装目录下的“HBase/hbase/lib”获取。 如