检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Master节点中的4核8GB规格不在SLA售后范围内,仅适用于测试环境,不建议用于生产环境。 MRS 3.x及之后版本集群Master节点规格不能小于64GB。 磁盘角色 表1 MRS集群节点磁盘类型 磁盘角色 描述 系统盘 节点系统盘的存储类型和存储空间。 存储类型: SAS:高IO SSD:超高IO GPSSD:通用型SSD
成数据丢失的情况,但是开启该参数会造成HDFS写性能下降。 “dfs.namenode.safemode.threshold-pct”参数表示DataNode上报的块达到总块数的百分比阈值,达到该阈值时NameNode会自动退出安全模式,该值设置过低可能导致在集群启动阶段存在大量副本复制。
/tmp/input,上传数据文件。 开发思路 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 主要分为四个部分: 创建表,将日志文件数据导入到表中。 筛选女性网民,提取上网时间数据信息。 汇总每个女性上网总时间。 筛选出停留时间大于两个小时的女性网民信息。 父主题: Spark
动态资源计划 > 资源分布策略”。 MRS控制台:在集群详情页,选择“租户管理 > 资源分布策略”。 在“资源池”选择指定的资源池。 在资源分配列表指定队列的“操作”列,单击“清除”。 在弹出的对话框中单击“是”,清除队列在当前资源池的配置。 如果用户未配置队列的资源容量策略,则清除功能默认不可用。
从MySQL官网下载MySQL jdbc驱动程序“mysql-connector-java-5.1.21.jar”,具体MySQL jdbc驱动程序选择参见下表。 表1 版本信息 jdbc驱动程序版本 MySQL版本 Connector/J 5.1 MySQL 4.1、MySQL 5.0、MySQL 5
w.everyone.if.no.acl.found”的值修改为“true”(普通集群不需配置)。 创建Topic。 {zkQuorum}表示ZooKeeper集群信息,格式为IP:port。 $KAFKA_HOME/bin/kafka-topics.sh --create --zookeeper
protection layer between client and server错误。 hadoop.rpc.protection参数表示数据可通过以下任一方式在节点间进行传输。 privacy:指数据在鉴权及加密后再传输。这种方式会降低性能。 authentication:
WebUI界面。 在界面左侧导航栏单击 ,选择“Workflow”,打开Workflow编辑器。 单击“文档”后的下拉框选择“操作”, 在操作列表中选择需要创建的作业类型,将其拖到操作界面中即可。 不同类型作业提交请参考以下章节: 使用Hue提交Oozie Hive2作业 使用Hue提交Oozie
WebUI界面。 在界面左侧导航栏单击 ,选择“Workflow”,打开Workflow编辑器。 单击“文档”后的下拉框选择“操作”, 在操作列表中选择需要创建的作业类型,将其拖到操作界面中即可。 不同类型作业提交请参考以下章节: 使用Hue提交Oozie Hive2作业 使用Hue提交Oozie
个数分组,每个分组会单独创建一个文件记录日志,从而避免应用长期运行时形成单个过大日志造成JobHistory无法读取的问题,设置为“0”时表示不分组。 大部分Spark Streaming任务属于小型job,而且产生速度较快,会导致频繁的分组,产生大量日志小文件消耗磁盘I/O。建
spark.rpc.io.connectionTimeout)大于或等于RPC响应超时时间(spark.rpc.askTimeout)。 表1 参数说明 参数 描述 默认值 spark.rpc.askTimeout RPC响应超时时间,不配置的话默认使用spark.network
个数分组,每个分组会单独创建一个文件记录日志,从而避免应用长期运行时形成单个过大日志造成JobHistory无法读取的问题,设置为“0”时表示不分组。 大部分Spark Streaming任务属于小型job,而且产生速度较快,会导致频繁的分组,产生大量日志小文件消耗磁盘I/O。建
spark.rpc.io.connectionTimeout)大于或等于RPC响应超时时间(spark.rpc.askTimeout)。 表1 参数说明 参数 描述 默认值 spark.rpc.askTimeout RPC响应超时时间,不配置的话默认使用spark.network
reserved.percentage”。 配置描述 请参考修改集群服务配置参数,进入HDFS的“全部配置”页面,在搜索框中输入参数名称。 表1 参数描述 参数 描述 默认值 dfs.datanode.du.reserved.percentage DataNode预留空间占总磁盘空
产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 对于配置了冷热分离策略的表,无法读取和写入OBS上的冷数据,同时本地盘上的热数据变冷后,无法移动到OBS上。 可能原因 ClickHouse访问OBS的endpoint等参数错误。
reserved.percentage”。 配置描述 请参考修改集群服务配置参数,进入HDFS的“全部配置”页面,在搜索框中输入参数名称。 表1 参数描述 参数 描述 默认值 dfs.datanode.du.reserved.percentage DataNode预留空间占总磁盘空
在FusionInsight Manager页面中,选择“集群 > 服务 > HDFS > 配置”,选择“全部配置”,并在搜索框中输入参数名称。 表1 配置参数 参数 描述 默认值 dfs.client.failover.proxy.provider.[nameservice ID] 用
在FusionInsight Manager页面中,选择“集群 > 服务 > HDFS > 配置”,选择“全部配置”,并在搜索框中输入参数名称。 表1 配置参数 参数 描述 默认值 dfs.client.failover.proxy.provider.[nameservice ID] 用
在客户端的“spark-defaults.conf”配置文件中配置如下参数。“spark.yarn.max.executor.failures”若不存在,则手动添加该参数项。 表1 参数说明 参数 描述 默认值 spark.task.maxFailures task retry次数。 4 spark.yarn.max
conf”配置文件中配置如下参数。“spark.yarn.max.executor.failures”如果不存在,则手动添加该参数项。 表1 参数说明 参数 描述 默认值 spark.task.maxFailures task retry次数。 4 spark.yarn.max