检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
field 该值用于在写之前对具有相同的key的行进行合并去重。 指定为具体的表字段 hoodie.datasource.write.payload.class 在更新过程中,该类用于提供方法将要更新的记录和更新的记录做合并,该实现可插拔,如要实现自己的合并逻辑,可自行编写。 org.apache
场景说明 场景说明 假定用户有某个周末网民网购停留时间的日志文本,基于某些业务要求,要求开发Spark应用程序实现如下功能: 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 周末两天的日志文件第一列为姓名,第二列为性别,第三列为本次停留时间,单位为分钟,分隔符为“
用户可以在Spark应用程序中使用HBaseContext的方式去使用HBase,将要获取的数据的rowKey构造成rdd,然后通过HBaseContext的bulkGet接口获取对HBase表上这些rowKey对应的数据。 数据规划 基于BulkPut接口使用章节创建的HBase表及其中的数据进行操作。 开发思路
用户可以在Spark应用程序中使用HBaseContext的方式去使用HBase,将要获取的数据的rowKey构造成rdd,然后通过HBaseContext的bulkGet接口获取对HBase表上这些rowKey对应的数据。 数据规划 基于BulkPut接口使用章节创建的HBase表及其中的数据进行操作。 开发思路
foreachPartition接口使用 场景说明 用户可以在Spark应用程序中使用HBaseContext的方式去操作HBase,将要插入的数据的rowKey构造成rdd,然后通过HBaseContext的mapPartition接口将rdd并发写入HBase表中。 数据规划 在客户端执行:hbase
1作业管理接口,请在历史API中,获取相关接口。 终端节点 终端节点即调用API的请求地址,不同服务不同区域的终端节点不同,您可以从地区和终端节点中查询服务的终端节点。 基本概念 账号 用户注册华为云时的账号,账号对其所拥有的资源及服务具有完全的访问权限,可以重置用户密码、分配用户权限等。由于账号是付费
node-cache-short-circuit.enable”的不同配置控制是否允许访问ECS元数据接口,从而控制是否允许触发ECS流控。 MRS集群支持通过委托获取临时AKSK访问OBS。临时AKSK通过ECS元数据接口获取。ECS元数据接口有单机器5分钟140次的流控阈值,触发流控后机器被加入黑名单,
创建RDD. 以数据源的方式操作HBase,将上面生成的RDD写入HBase表中. 读取HBase表中的数据,并且对其进行简单的操作。 打包项目 通过IDEA自带的Maven工具,打包项目,生成jar包。具体操作请参考在Linux环境中编包并运行Spark程序。 将打包生成的jar包上传到
创建RDD. 以数据源的方式操作HBase,将上面生成的RDD写入HBase表中. 读取HBase表中的数据,并且对其进行简单的操作。 打包项目 通过IDEA自带的Maven工具,打包项目,生成jar包。具体操作请参考在Linux环境中调测Spark应用。 将打包生成的jar包上传到S
没有/tmp目录权限导致执行访问OBS的作业报错 问题现象 在使用MRS多用户访问OBS的场景中,执行Spark、Hive、Presto等作业时,出现“/tmp”目录没有权限的报错。 问题原因 作业执行过程中有临时目录,提交作业的用户对临时目录没有操作权限。 解决方法 在集群“概
S集群所支持的所有组件。 版本类型 LTS版 待创建的MRS集群版本类型,不同版本所包含的开源组件版本及功能特性可能不同,推荐选择最新版本。 集群版本 MRS 3.2.0-LTS.1 待创建的MRS集群版本。 组件选择 实时分析集群 基于系统预置的集群模板选择要购买的集群组件。 可用区
HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。本章节提供从零开始使用HBase的操作指导,通过客户端实现创建表,往表中插入数据,修改表,读取表数据,删除表中数据以及删除表的功能。 背景信息 假定用户开发一个应用程序,用于管理企业中的使用A业务的用户信息,使用HBase客户端实现A业务操作流程如下:
HBase查询集群 基于系统预置的集群模板选择要购买的集群组件。 可用区 可用区1 选择集群工作区域下关联的可用区。 虚拟私有云 vpc-default 选择需要创建集群的VPC,单击“查看虚拟私有云”进入VPC服务查看已创建的VPC名称和ID。如果没有VPC,需要创建一个新的VPC。 子网 subnet-default
参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 AgentId 产生告警的Agent ID。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 产生告警的Flume Agent实例无法正常启动,定义在该实例下的数据传输任务暂时中断,对于实时数据传输,会丢失实时数据。
--xid 显示指定ID的连接属性 -n,--name 显示指定名称的连接属性 job -a,--all 显示所有作业信息 -j,--jid 显示指定ID的作业信息 -n,--name 显示指定名称的作业信息 submission -j,--jid 显示指定作业的提交记录 -d,--detail
参数后选择并上传本地已准备好的UDF jar文件。 填写UDF名称以及描述信息后,单击“确定”。 “UDF名称”最多可添加10项,“名称”可自定义,“类名”需与上传的UDF jar文件中UDF函数全限定类名一一对应。 上传UDF jar文件后,服务器默认保留5分钟,5分钟内单击确
用户MRS集群选的是企业项目A(包含MRS FULLACCESS和ECS FULLACCESS权限)。 VPC选的是企业项目B。 安全组选的是企业项目A。 IAM这边加入的组没有任何权限设置。 经过分析用户的VPC企业项目B里缺少vpc readonly权限导致了该报错的发生。 处理步骤
用户表必须存在。 indexspecs.to.add中指定的索引不能已存在于表中。 indexnames.to.build中指定的索引名称必须已经存在于表中,或者应该是indexspecs.to.add的一部分。 在执行前面的命令之后,indexspecs.to.add中指定的所有索引都将添加到
正式编写脚本前,您需要将所需安装包、配置包的所有相关文件都上传到同Region的OBS文件系统中。 因为不同Region间有网络隔离,MRS虚拟机无法下载其他Region上的OBS文件。 脚本中如何从OBS文件系统下载文件。 您可以在脚本中指定从OBS下载需要的文件。如果将文件上传到私有文件系统,需要用hadoop
keytab通过YARN分发到Spark on YARN的container目录下,因此KafkaClient中对于“keyTab”的配置路径必须为相对jaas.conf的所在路径,例如“./user.keytab”。principal修改为自己创建的用户名及集群域名。 开发思路 接收Kafka中数据,生成相应DStream。