检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配、访问控制等功能,可以帮助您安全的控制华为云资源的访问。 通过IAM,您可以在华为云账号中给员工创建IAM用户,并授权控制用户对资源的访问范围。例如您的员工中有负责应用开发的人员,您希望开发人员拥有MapReduce服务的使用权限,但是不希望其拥有删除MRS集群等高危操作的权限
应用场景 本章节适用于将线下IDC机房或者公有云HBase集群中的数据(支持数据量在几十TB级别或以下的数据量级)迁移到华为云MRS服务。 本章节以通过华为云CDM服务 2.9.1.200版本进行数据迁移为例介绍。不同版本操作可能有差异,具体操作详情以实际版本对应的操作指导为准。
PATH_TO_KRB5_CONF = "/opt/client/krb5.conf" 在Windows环境的开发环境IntelliJ IDEA中,在“Maven Projects > 样例工程名称 > Lifecycle”中,执行“clean”和“package”操作,编译完成后,在target
Resource参数中“bucket”的参数值表示OBS桶名称,“object”的参数值表示OBS对象名称,可根据需要指定名称。配置为“*”表示对所有OBS桶或OBS对象适用此策略。 其他参数按照实际需求进行配置。 勾选新建的策略名称例如“dev_visit_obs”,单击“下一步”。 “设置最小
IDEA中的JDK配置为Open JDK。 不同的IntelliJ IDEA不要使用相同的workspace和相同路径下的示例工程。 安装Maven 开发环境的基本配置。用于项目管理,贯穿软件开发生命周期。 7-zip 用于解压“*.zip”和“*.rar”文件,支持7-zip 16
开发思路 接收Kafka中数据,生成相应DStream。 对单词记录进行分类统计。 计算结果,并进行打印。 打包项目 通过IDEA自带的Maven工具,打包项目,生成jar包。具体操作请参考在Linux环境中编包并运行Spark程序。 将打包生成的jar包上传到Spark客户端所在服务器的任意目录(例如“
筛选女性网民,提取上网时间数据信息。 汇总每个女性上网总时间。 筛选出停留时间大于两个小时的女性网民信息。 打包项目 通过IDEA自带的Maven工具,打包项目,生成jar包。具体操作请参考在Linux环境中调测Spark应用。 将打包生成的jar包上传到Spark客户端所在服务器的任意目录(例如“
接收Kafka中数据,生成相应DataStreamReader。 进行分类统计。 计算结果,并进行打印。 打包项目 通过IDEA自带的Maven工具,打包项目,生成jar包 将打包生成的jar包上传到Spark客户端所在服务器的任意目录(例如“ /opt” )下。 运行任务 在运行样例程序时需要指定
节点“${BIGDATA_HOME}/third_lib/Hive”目录下(开源驱动包下载地址:https://repo1.maven.org/maven2/org/postgresql/postgresql/42.2.5/)。 MySQL:进入MySQL官网(https://www
1/src/clickhouse-examples。 本地使用IDEA工具导入样例工程,等待Maven工程下载相关依赖包,具体操作可参考配置并导入样例工程。 图1 ClickHouse样例工程示例 本地配置好Maven及SDK相关参数后,样例工程会自动加载相关依赖包。 在本示例工程中,程序通过配
读取原文件数据。 筛选女性网民上网时间数据信息。 汇总每个女性上网总时间。 筛选出停留时间大于两个小时的女性网民信息。 打包项目 通过IDEA自带的Maven工具,打包项目,生成jar包。具体操作请参考在Linux环境中编包并运行Spark程序。 将打包生成的jar包上传到Spark客户端所在服务器的任意目录(例如“
筛选女性网民,提取上网时间数据信息。 汇总每个女性上网总时间。 筛选出停留时间大于两个小时的女性网民信息。 打包项目 通过IDEA自带的Maven工具,打包项目,生成jar包。具体操作请参考在Linux环境中编包并运行Spark程序。 将打包生成的jar包上传到Spark客户端所在服务器的任意目录(例如“
接收Kafka中数据,生成相应DataStreamReader。 进行分类统计。 计算结果,并进行打印。 打包项目 通过IDEA自带的Maven工具,打包项目,生成jar包 将打包生成的jar包上传到Spark客户端所在服务器的任意目录(例如“ /opt” )下。 运行任务 在运行样例程序时需要指定
读取原文件数据。 筛选女性网民上网时间数据信息。 汇总每个女性上网总时间。 筛选出停留时间大于两个小时的女性网民信息。 打包项目 通过IDEA自带的Maven工具,打包项目,生成jar包。具体操作请参考在Linux环境中调测Spark应用。 将打包生成的jar包上传到Spark客户端所在服务器的任意目录(例如“
要修改为准备好的开发用户。 打包项目 将krb5.conf和user.keytab 文件上传到客户端所在服务器上。 通过IDEA自带的Maven工具,打包项目,生成jar包。具体操作请参考在Linux环境中调测Spark应用。 编译打包前,样例代码中的user.keytab、krb5
入的样例工程。 图17 导入结束 图18 已导入工程 导入样例工程依赖的Jar包。 如果通过开源镜像站方式获取的样例工程代码,在配置好Maven后, 相关依赖jar包将自动下载,不需手动添加。 当样例代码使用其他FusionInsight组件时,例如Kafka等,请去对应Fusi
接收Kafka中数据,生成相应DataStreamReader。 对单词记录进行分类统计。 计算结果,并进行打印。 打包项目 通过IDEA自带的Maven工具,打包项目,生成jar包。具体操作请参考在Linux环境中调测Spark应用。 将打包生成的jar包上传到Spark客户端所在服务器的任意目录(例如“
Scala开发环境的基本配置。版本要求:2.11.7。 安装Scala插件 Scala开发环境的基本配置。版本要求:1.5.4。 安装Maven 开发环境的基本配置。用于项目管理,贯穿软件开发生命周期。 7-zip 用于解压“*.zip”和“*.rar”文件,支持7-Zip 16
约束与限制 使用MRS前,您需要认真阅读并了解以下使用限制。 MRS集群创建限制 表1 MRS集群创建约束说明 限制项 说明 网络要求 MRS集群必须创建在VPC子网内。 创建MRS集群时,支持自动创建安全组,也可选择已有的安全组。 MRS集群使用的安全组请勿随意放开权限,避免被恶意访问。
作业管理 MRS作业管理为用户提供向集群提交作业的入口,支持包括MapReduce、Spark、HQL和SparkSQL等类型的作业。 结合华为云数据治理中心DataArts Studio,提供一站式的大数据协同开发环境、全托管的大数据调度能力,帮助用户快速构建大数据处理中心。 通过数据治理中心DataArts