检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
MapReduce与其他组件的关系 MapReduce和HDFS的关系 HDFS是Hadoop分布式文件系统,具有高容错和高吞吐量的特性,可以部署在价格低廉的硬件上,存储应用程序的数据,适合有超大数据集的应用程序。 MapReduce是一种编程模型,用于大数据集(大于1TB)的并
查询频次及响应速度要求。例如,在行为分析场景中,需支持近期流量数据的高频查询和高时效性,历史数据的访问频次很低,但需长时间备份以保证后续的审计和回溯工作,且查询需求也会随着时间推移锐减,如果将所有数据存储在本地,将造成大量的资源浪费。 本章节仅适用于MRS 3.3.1 及之后版本。
1/quick-start.html。 常用CLI Spark常用的CLI如下所示: spark-shell 提供了一个简单学习API的方法,类似于交互式数据分析的工具。同时支持Scala和Python两种语言。在Spark目录下,执行./bin/spark-shell即可进入Scala交互式界面从HDFS中获取数据,再操作RDD。
/opt/client/Spark2x/component_env 执行以下命令认证用户。 kinit Hive业务用户 执行以下命令登录客户端工具。 /opt/client/Spark2x/spark/bin/beeline -u "jdbc:hive2://<zkNode1_IP>:<zkNode1_Port>
Impala客户端使用实践 Impala是用于处理存储在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询引擎。 它是一个用C++和Java编写的开源软件。 与其他Hadoop的SQL引擎相比,它拥有高性能和低延迟的特点。 背景信息 假定用户开发一个应用程序,用于管理企业中的使用A业务的
为保证Hive服务的高可用性、用户数据的安全及访问服务的可控制,在开源社区的Hive-3.1.0版本基础上,Hive新增如下特性: 基于Kerberos技术的安全认证机制。 数据文件加密机制。 完善的权限管理。 开源社区的Hive特性,请参见https://cwiki.apache
准备连接Doris集群配置文件 准备集群认证用户信息 对于未开启Kerberos认证的MRS集群,需提前准备具有相关组件操作权限的用户用于程序认证。 以下Doris权限配置示例供参考,在实际业务场景中可根据业务需求灵活调整。 登录安装了MySQL客户端的节点,使用admin用户连接Doris服务。
Hive应用开发简介 Hive简介 Hive是一个开源的,建立在Hadoop上的数据仓库框架,提供类似SQL的HiveQL语言操作结构化数据,其基本原理是将HiveQL语言自动转换成MapReduce任务或Spark任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。
分区,区域展示)等场景下。 为保证Hive服务的高可用性、用户数据的安全及访问服务的可控制,在开源社区的Hive-3.1.0版本基础上,Hive新增如下特性: 数据文件加密机制。 开源社区的Hive特性,请参见https://cwiki.apache.org/confluence
为保证Hive服务的高可用性、用户数据的安全及访问服务的可控制,在开源社区的Hive-3.1.0版本基础上,Hive新增如下特性: 基于Kerberos技术的安全认证机制。 数据文件加密机制。 完善的权限管理。 开源社区的Hive特性,请参见https://cwiki.apache
/opt/client/Spark2x/component_env 执行以下命令认证用户。 kinit Hive业务用户 执行以下命令登录客户端工具。 /opt/client/Spark2x/spark/bin/beeline -u "jdbc:hive2://<zkNode1_IP>:<zkNode1_Port>
连接postgresql或者gaussdb时报错 问题 连接postgresql或者gaussdb时报错。 回答 场景一:(import场景)使用sqoop import命令抽取开源postgre到MRS hdfs或hive等。 问题现象: 使用sqoop命令查询postgre表可以,但是执行sqoop import命令倒数时报错:
10亿级数据量场景的解决方案有哪些? 问: 10亿级数据量场景的解决方案有哪些? 答: 有数据更新、联机事务处理OLTP、复杂分析的场景,建议使用云数据库 GaussDB(for MySQL)。 MRS的Impala + Kudu也能满足该场景,Impala + Kudu可以在j
数据源类别。 约束限制: 不涉及 取值范围: RDS_POSTGRES:RDS服务PostgreSQL数据库 RDS_MYSQL:RDS服务MySQL数据库 gaussdb-mysql:云数据库GaussDB(for MySQL) 默认取值: 不涉及 connector_name 否 String
用户创建成功后,使用该用户登录FusionInsight Manager,根据界面提示修改初始密码。 获取样例工程 通过开源镜像站获取样例工程。 下载样例工程的Maven工程源码和配置文件,并在本地配置好相关开发工具,可参考通过开源镜像站获取样例工程。 根据集群版本选择对应的分支,下载并获取MRS相关样例工程。 例
开发环境的基本配置。用于项目管理,贯穿软件开发生命周期。 华为提供开源镜像站,各服务样例工程依赖的Jar包通过华为开源镜像站下载,剩余所依赖的开源Jar包请直接从Maven中央库或者其他用户自定义的仓库地址下载,详情请参考配置华为开源镜像仓。 7-zip 用于解压“*.zip”和“*.rar”文件,支持7-zip
对同一张表或分区并发写数据导致任务失败 问题背景与现象 Hive执行插入语句时,报错HDFS上文件或目录已存在或被清除,具体报错如下: 原因分析 根据HiveServer的审计日志,确认该任务的开始时间和结束时间。 在上述时间区间内,查找是否有对同一张表或分区进行插入数据的操作。 Hive不支持对同一张表或分区进
重置MRS集群组件数据库用户密码 MRS集群中组件连接DBService数据库的用户默认密码为随机密码,建议管理员定期重置组件数据库用户的密码,以提升系统运维安全性。 该章节仅适用于MRS 3.1.2及之后版本。MRS 3.1.2之前版本请参考修改MRS集群组件数据库用户密码章节。
修改MRS集群组件数据库用户密码 该任务指导用户定期修改组件数据库用户的密码,以提升系统运维安全性。 对系统的影响 修改密码需要重启服务,服务在重启时无法访问。 修改MRS集群组件数据库用户密码(MRS 3.1.0版本) 该操作仅适用于MRS 3.1.0版本,MRS 3.1.0之
如何为ClickHouse用户赋予数据库级别的Select权限 操作步骤 登录到MRS集群装有ClickHouse客户端的节点,执行如下命令: su - omm source {客户端安装目录}/bigdata_env kinit 组件用户(普通集群无需执行kinit命令) clickhouse