检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
存储系统上(比如HDFS)。 因为Driver程序在集群上调度任务,所以Driver程序建议和worker节点比较近,比如在一个相同的局部网络内。 Spark on YARN有两种部署模式: yarn-cluster模式下,Spark的Driver会运行在YARN集群内的Appl
restart策略。 如果用户在作业失败后,希望对作业进行重试,推荐使用failure-rate策略。因为fixed-delay策略可能会因为网络、内存等硬件故障导致用户作业失败次数达到最大重试次数,从而导致作业失败。 为了防止在failure-rate策略下的无限重启,推荐如下参数配置:
为了提高导入数据速度,需要确保以下条件: 每个Map连接时,相当于一个客户端连接,因此需要确保SFTP服务器最大连接数大于Map数量。 确保SFTP服务器上的磁盘IO或是网络带宽都未达到上限。 20 Map数据块大小 配置数据操作的MapReduce任务中启动map所处理的数据大小,单位为MB。参数值必须大于或
时,每一条输出结果需要按key哈希,并且分发到对应的Reducer上去,这个过程就是shuffle。由于shuffle涉及到了磁盘的读写和网络的传输,因此shuffle性能的高低直接影响到了整个程序的运行效率。 下图清晰地描述了MapReduce算法的整个流程。 图3 算法流程
MetaStore 操作场景 MRS 3.2.0及之后的版本支持此功能,此功能用于限制集群内组件连接指定的Hive MetaStore实例,组件默认可连接所有MetaStore实例。 目前集群中支持连接MetaStore的组件有HetuEngine、Hive、Loader、Metadat
进入Linux客户端目录,运行如下命令导入公共环境变量。 cd /opt/client source bigdata_env 在该目录下用hdfs用户进行命令行认证。 kinit hdfs kinit一次票据时效24小时。24小时后再次运行样例,需要重新执行kinit命令。 进入“/opt/clien
为了提高导入数据速度,需要确保以下条件: 每个Map连接时,相当于一个客户端连接,因此需要确保SFTP服务器最大连接数大于Map数量。 确保SFTP服务器上的磁盘IO或是网络带宽都未达到上限。 20 Map数据块大小 配置数据操作的MapReduce任务中启动map所处理的数据大小,单位为MB。参数值必须大于或
例如,Spark2x客户端安装目录为“/opt/client”,执行source /opt/client/bigdata_env 执行以下命令认证用户。 kinit Spark2x业务用户 执行以下命令登录客户端工具。 spark-beeline 执行以下命令更新用户的管理员权限。 set
例如,Spark2x客户端安装目录为“/opt/client”,执行source /opt/client/bigdata_env 执行以下命令认证用户。 kinit Spark2x业务用户 执行以下命令登录客户端工具。 spark-beeline 执行以下命令更新用户的管理员权限。 set
时,每一条输出结果需要按key哈希,并且分发到对应的Reducer上去,这个过程就是shuffle。由于shuffle涉及到了磁盘的读写和网络的传输,因此shuffle性能的高低直接影响到了整个程序的运行效率。 下图清晰地描述了MapReduce算法的整个流程。 图3 算法流程
主备集群数据,减少查询毛刺,具体表现为: 高成功率:双并发读机制,保证每一次读请求的成功率。 可用性:单集群故障时,查询业务不中断。短暂的网络抖动也不会导致查询时间变长。 通用性:双读特性不支持双写,但不影响原有的实时写场景。 易用性:客户端封装处理,业务侧不感知。 HBase双读使用约束:
时,每一条输出结果需要按key哈希,并且分发到对应的Reducer上去,这个过程就是shuffle。由于shuffle涉及到了磁盘的读写和网络的传输,因此shuffle性能的高低直接影响到了整个程序的运行效率。 下图清晰地描述了MapReduce算法的整个流程。 图3 算法流程
HFS为以上场景提供了统一的操作接口,这些操作接口与HBase的函数接口类似。 HBase开源增强特性:HBase双读 在HBase存储场景下,因为GC、网络抖动、磁盘坏道等原因,很难保证99.9%的查询稳定性。为了满足用户大数据量随机读低毛刺的要求,新增了HBase双读特性。 HBase双读特
登录FusionInsight Manager,选择“系统 > 权限 > 角色”。 单击“添加角色”,在“配置资源权限”中单击集群名称,确认可配置资源权限的组件。 选择“集群 > 服务”,查看可配置资源权限的组件的运行状态是否都为“良好”。 如果不为“良好”,请启动或者修复组件,直至状态为“良好”。
在弹出窗口中输入当前登录的用户密码确认身份,然后单击“确定”。 在确认重启实例的对话框中单击“确定”。 支持单击“查看实例”打开所有配置已过期的实例列表,确认可以执行重启任务。 同步组件配置: 登录Manager页面。 MRS 3.x版本:选择“集群 > 服务”。 MRS 2.x及之前版本:单击“服务管理”。
在弹出窗口中输入当前登录的用户密码确认身份,然后单击“确定”。 在确认重启实例的对话框中单击“确定”。 支持单击“查看实例”打开所有配置已过期的实例列表,确认可以执行重启任务。 父主题: 管理MRS集群
举例。 进入客户端安装目录/opt/client,执行下列命令初始化环境变量。 source bigdata_env 执行下列命令进行用户认证,这里以hdfs为例,用户可根据实际用户名修改(普通集群请跳过此步操作)。 kinit hdfs kinit一次的时效24小时。24小时后再次运行样例,需要重新执行kinit。
进入Kafka配置页面,参数类别选择全部配置,显示所有Kafka相关配置,在“搜索”中输入message.max.bytes进行检索。 MRS中Kafka服务端默认可以接收的消息最大为1000012 bytes =977 KB。 解决办法 与用户确认,当前Flume发送数据确实存在超过1M的消息。因此,
MRS集群运行模式。 约束限制: 不涉及 取值范围: SIMPLE:普通集群,表示Kerberos认证关闭,用户可使用集群提供的所有功能。 KERBEROS:安全集群,表示Kerberos认证开启,普通用户无权限使用MRS集群的“文件管理”和“作业管理”功能,并且无法查看Hadoop、
参数解释: MRS集群运行模式。 约束限制: 不涉及 取值范围: 0:普通集群,表示Kerberos认证关闭,用户可使用集群提供的所有功能。 1:安全集群,表示Kerberos认证开启,普通用户无权限使用MRS集群的“文件管理”和“作业管理”功能,并且无法查看Hadoop、Spa