检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
行所需的数据文件。 提交作业并查看结果:在集群客户端提交wordcount数据分析作业并查看执行结果。 释放资源:如果您在完成实践后不需要继续使用MRS集群,请及时清理资源以免产生额外扣费。 准备工作 注册账号并实名认证。 在创建MRS集群之前,请先注册华为账号并开通华为云,进行实名认证。
mple Oozie提交MapReduce任务示例程序。 本示例演示了如何通过Java API提交MapReduce作业和查询作业状态,对网站的日志文件进行离线分析。 oozie-examples/ooziesecurity-examples/OozieSparkHBaseExample
CPU、内存和磁盘等资源,可以整合规划为一个集合体,这个集合体就是租户。多个不同的租户统称多租户。 多租户功能支持层级式的租户模型,支持动态的添加和删除租户,实现资源的隔离,可以对租户的计算资源和存储资源进行动态配置和管理。 计算资源指租户Yarn任务队列资源,可以修改任务队列的
加速Merge操作 加速后台任务,需要优先调整Zookeeper服务配置,否则Zookeeper会因为znode等资源不足,导致ClickHouse服务异常,后台任务异常。 调整Zookeeper配置:登录FusionInsight Manager界面,选择“集群 > Zookeeper
ClickHouse加速Merge调优 加速后台任务,需要优先调整Zookeeper服务配置,否则Zookeeper会因为znode等资源不足,导致ClickHouse服务异常,后台任务异常。 调整Zookeeper配置:登录FusionInsight Manager界面,选择“集群
开启物化视图能力,提高查询的响应效率 配置HetuEngine物化视图改写能力 配置物化视图推荐能力 自动学习并推荐对业务最有价值的物化视图SQL,使在线查询效率获得倍数提升,同时有效降低系统负载压力 配置HetuEngine物化视图推荐能力 配置物化视图缓存能力 可将多次执行并改写后的SQL保存到缓存中
Spark并发写Hudi建议 涉及到并发场景,推荐采用分区间并发写的方式:即不同的写入任务写不同的分区 分区并发参数控制: SQL方式: set hoodie.support.partition.lock=true; DataSource Api方式: df.write .format("hudi")
打开浏览器访问:华为提供开源镜像站(https://mirrors.huaweicloud.com/repository/maven/huaweicloudsdk/),查看网站是否能正常访问。如果访问异常,请先开通本地网络。 确认当前开发工具是否开启代理。下载jar包前需要确保开发工具代理关闭。 比如以2020.2版本的IntelliJ
JDBC方式使用公用资源,不用单独起Spark作业,但是不能指定执行SQL所需要的资源以及配置参数,因此建议用来做建表操作或小数据量的查询操作。 Spark API方式执行的SQL独立起Spark作业,有一定的耗时,但是可以通过配置运行程序参数来指定作业所需要的资源等参数,建议批量导入等
如果此参数的值设置为0,则表示系统不会检查老化文件,所有老化文件会被保存在系统中。 取值范围:0~fs.trash.interval。 说明: 不推荐将此参数值设置为0,这样系统的老化文件会一直存储下去,导致集群的磁盘空间不足。 60 父主题: 使用HDFS
创建的目录下。 Spark和YARN的关系 Spark的计算调度方式,可以通过YARN的模式实现。Spark共享YARN集群提供丰富的计算资源,将任务分布式的运行起来。Spark on YARN分两种模式:YARN Cluster和YARN Client。 YARN Cluster模式
nt模式下,不兼容老版本的客户端。推荐使用yarn-cluster模式。 客户端向ResourceManager发送Spark应用提交请求,ResourceManager为其返回应答,该应答中包含多种信息(如ApplicationId、可用资源使用上限和下限等)。Client端将
API接口 功能 说明 Scala API 提供Scala语言的API,提供过滤、join、窗口、聚合等数据处理能力。由于Scala语言的简洁易懂,推荐用户使用Scala接口进行程序开发。 Java API 提供Java语言的API,提供过滤、join、窗口、聚合等数据处理能力。 基本概念
角色”,在“角色”界面单击“添加角色”按钮,进入添加角色页面。 在添加角色界面输入“角色名称”,在“配置资源权限”列表中单击集群名称,进入服务列表页面,单击“Doris”服务,进入Doris权限资源页面。 根据业务需求确定是否要创建具有Doris管理员权限的角色。 Doris管理员权限为:除去节点操作权限外的所有权限。
使用FileSystem实例的create方法获取写文件的输出流。 使用该数据流将内容写入到HDFS的指定文件中。 在写完文件后,需关闭所申请资源。 代码样例 如下是写文件的代码片段,详细代码请参考com.huawei.bigdata.hdfs.examples中的HdfsExample类。
配置AM失败重试次数 配置场景 在资源不足导致ApplicationMaster启动失败的情况下,调整如下参数值,提高容错性,保证客户端应用的正常运行。 配置描述 参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面,在搜索框中输入表1中参数名称。 表1 参数说明 参数 描述
支持从Doris中读取数据 支持Spark DataFrame批量/流式写入Doris。 可以将Doris表映射为DataFrame或者RDD,推荐使用DataFrame。 支持在Doris端完成数据过滤,减少数据传输量。 该章节仅适用于MRS 3.5.0及之后版本。 前提条件 已创建
使用FileSystem实例的create方法获取写文件的输出流。 使用该数据流将内容写入到HDFS的指定文件中。 在写完文件后,需关闭所申请资源。 代码样例 如下是写文件的代码片段,详细代码请参考com.huawei.bigdata.hdfs.examples中的HdfsExample类。
使用FileSystem实例的create方法获取写文件的输出流。 使用该输出流将内容写入到HDFS的指定文件中。 在写完文件后,需关闭所申请资源。 代码样例 如下是写文件的代码片段,详细代码请参考com.huawei.bigdata.hdfs.examples中的HdfsExample类。
配置AM失败重试次数 配置场景 在资源不足导致ApplicationMaster启动失败的情况下,调整如下参数值,提高容错性,保证客户端应用的正常运行。 配置描述 参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面,在搜索框中输入表1中参数名称。 表1 参数说明 参数 描述