检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Manager中下载principal用户的认证凭证,样例代码中使用的用户为:super,需要修改为准备好的开发用户。 打包项目 通过IDEA自带的Maven工具,打包项目,生成jar包。具体操作请参考在Linux环境中调测Spark应用。 将打包生成的jar包上传到Spark客户端所在服务器的任意目录(例如“$SPARK_HOME”
Manager中下载principal用户的认证凭证,样例代码中使用的用户为:super,需要修改为准备好的开发用户。 打包项目 通过IDEA自带的Maven工具,打包项目,生成jar包。具体操作请参考在Linux环境中调测Spark应用。 将打包生成的jar包上传到Spark客户端所在服务器的任意目录(例如“$SPARK_HOME”
Manager中下载principal用户的认证凭证,样例代码中使用的用户为:super,需要修改为准备好的开发用户。 打包项目 通过IDEA自带的Maven工具,打包项目,生成jar包。具体操作请参考在Linux环境中编包并运行Spark程序。 将打包生成的jar包上传到Spark客户端所在服务器
性能优化类 Hadoop压力测试工具如何获取? 如何提高集群Core节点的资源使用率? 如何配置MRS集群knox内存? 如何调整MRS集群manager-executor进程内存? 如何设置Spark作业执行时自动获取更多资源? spark.yarn.executor.memo
本地环境使用开发工具下载依赖的jar包前,需要确认以下信息。 确认本地环境网络正常。 打开浏览器访问:华为提供开源镜像站(网址为https://mirrors.huaweicloud.com/),查看网站是否能正常访问。如果访问异常,请先开通本地网络。 确认当前开发工具是否开启代理。
Manager中下载principal用户的认证凭证,样例代码中使用的用户为:super,需要修改为准备好的开发用户。 打包项目 通过IDEA自带的Maven工具,打包项目,生成jar包。具体操作请参考在Linux环境中调测Spark应用。 将打包生成的jar包上传到Spark客户端所在服务器的任意目录(例如“$SPARK_HOME”
SQL接口 提交SQL语句 查询SQL结果 取消SQL执行任务 父主题: API V2
e,通过HBaseContext的bulkGet接口获取HBase表上这些rowKey对应的数据。 打包项目 通过IDEA自带的Maven工具,打包项目,生成jar包。具体操作请参考在Linux环境中编包并运行Spark程序。 将打包生成的jar包上传到Spark客户端所在服务器
e,通过HBaseContext的bulkGet接口获取HBase表上这些rowKey对应的数据。 打包项目 通过IDEA自带的Maven工具,打包项目,生成jar包。具体操作请参考在Linux环境中调测Spark应用。 将打包生成的jar包上传到Spark客户端所在服务器的任意目录(例如“$SPARK_HOME”
Manager中下载principal用户的认证凭证,样例代码中使用的用户为:super,需要修改为准备好的开发用户。 打包项目 通过IDEA自带的Maven工具,打包项目,生成jar包。具体操作请参考在Linux环境中编包并运行Spark程序。 将打包生成的jar包上传到Spark客户端所在服务器
该场景下MRS的优势如下所示。 低成本:利用OBS实现低成本存储。 海量数据分析:利用Hive实现TB/PB级的数据分析。 可视化的导入导出工具:通过可视化导入导出工具Loader,将数据导出到DWS,完成BI分析。 海量数据存储场景 用户拥有大量结构化数据后,通常需要提供基于索引的准实时查询
均衡Kafka扩容节点后数据 操作场景 用户可以在Kafka扩容节点后,在客户端中执行Kafka均衡工具来均衡Kafka集群的负载。 本章节内容适用于MRS 3.x之前版本。3.x及之后版本请参考配置Kafka数据均衡工具。 前提条件 MRS集群管理员已明确业务需求,并准备一个Kafka管理员用户(属
启用集群间拷贝功能备份集群数据 操作场景 当用户需要将保存在HDFS中的数据从当前集群备份到另外一个集群时,需要使用DistCp工具。DistCp工具依赖于集群间复制功能,该功能默认未启用。两个集群都需要配置。 该任务指导MRS集群管理员在MRS修改参数以启用集群间复制功能。 对系统的影响
集群内ClickHouseServer节点间数据迁移 ClickHouse数据迁移工具可以将某几个ClickHouseServer实例节点上的一个或多个MergeTree引擎分区表的部分分区迁移至其他ClickHouseServer节点上相同的表中。在扩容场景中,可以使用该工具将原节点上的部分数据迁移至新增节点上,从而达到扩容后的数据均衡。
离线数据可以从数据湖加载,也可以直接加载本地文件。从数据湖加载可以使用工具CDM,在没有CDM工具时,可以直接使用外表加载、BrokerLoad的方式。本地文件加载则使用Doris自带的StreamLoad工具。 图1 离线数据加载 操作流程 步骤1:创建MRS Doris集群并配置
集群内ClickHouseServer节点间数据迁移 ClickHouse数据迁移工具可以将某几个ClickHouseServer实例节点上的一个或多个MergeTree引擎分区表的部分分区迁移至其他ClickHouseServer节点上相同的表中。在扩容场景中,可以使用该工具将原节点上的部分数据迁移至新增节点上,从而达到扩容后的数据均衡。
启用MRS集群间拷贝功能 当用户需要将保存在HDFS中的数据从当前集群备份到另外一个集群时,需要使用DistCp工具。DistCp工具依赖于集群间拷贝功能,该功能默认未启用,复制数据的集群双方都需要配置。 管理员可以根据以下指导,在Manager修改参数以启用集群间拷贝功能,启用
方式之一进行配置,然后执行9。 方式一:使用“haveged”工具(真随机数方式):请联系操作系统供应商安装并启动该工具。 方式二:使用“rng-tools”工具(伪随机数方式):请联系操作系统供应商安装并启动该工具,并根据操作系统类型进行配置。 等待第二天零点,系统下一次熵值检查,查看告警是否自动清除。
Kafka作为一个消息发布-订阅系统,为整个大数据平台多个子系统之间数据的传递提供了高速数据流转方式。 Kafka可以实时接受来自外部的消息,并提供给在线以及离线业务进行处理。 Kafka与其他组件的具体的关系如下图所示: 图1 与其他组件关系 父主题: Kafka
的RDD。 使用mapPartition接口遍历上述rowkey对应的数据信息,并进行简单的操作。 打包项目 通过IDEA自带的Maven工具,打包项目,生成jar包。具体操作请参考在Linux环境中编包并运行Spark程序。 将打包生成的jar包上传到Spark客户端所在服务器