检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
当前用户和帮助信息等内容,如图3所示。 图3 集群状态信息 单击可查看“任务管理中心”中近100次操作任务的任务名、状态、进度、开始时间和结束时间。 对于启动、停止、重启以及滚动重启操作,在任务执行过程中,单击任务列表中的对应任务名称,单击“中止”按钮,根据界面提示输入系统管理员
conf", hbConf); //spout为随机单词spout WordSpout spout = new WordSpout(); WordCounter bolt = new WordCounter();
takeSample(withReplacement,num,seed)对dataset随机抽样,返回由num个元素组成的数组。withReplacement表示是否使用replacement。 saveAsTextFile(path: String): Unit 把dataset写到一个text fi
只有集群处于“运行中”状态时才能提交作业。 作业提交成功后默认为“已接受”状态,不需要用户手动执行作业。 查看作业执行结果。 进入“作业管理”页面,查看作业是否执行完成。 作业运行需要时间,作业运行结束后,刷新作业列表,查看作业列表如图5所示。 图5 作业列表 作业执行成功或失败后都不能再次执行,只能新增或者复制作业,配置作业参数后重新提交作业。
默认是8。 目前推荐将该值设置为逻辑CPU核数的1.5~2倍之间。 8 物理CPU使用百分比 建议预留适量的CPU给操作系统和其他进程(数据库、HBase等)外,剩余的CPU核都分配给YARN。可以通过如下配置参数进行调整。 参数 描述 默认值 yarn.nodemanager.resource
指定Insert模式,取值为strict、non-strict及upsert。 hoodie.sql.bulk.insert.enable 指定是否开启bulk insert写入。 spark.sql.hive.convertMetastoreParquet sparksql把parq
高效的流式数据采集,实时数据处理存储等。 Kafka、Storm ClickHouse集群 ClickHouse是一个用于联机分析的列式数据库管理系统,具有压缩率和极速查询性能。被广泛的应用于互联网广告、App和Web流量、电信、金融、物联网等众多领域。 ClickHouse、ZooKeeper
Put相关参数 参数 描述 默认值 hbase.wal.hsync 每一条WAL是否持久化到硬盘。 参考提升HBase连续Put数据场景性能。 true hbase.hfile.hsync HFile写数据是否立即持久化到硬盘。 参考提升HBase连续Put数据场景性能。 true hbase
check-serviceDetail.log 服务安装完成之后验证服务状态的。 cdl-db-operation.log 服务启动时初始化数据库的日志。 cdl-app-launcher.log CDL数据同步任务的Spark App启动日志。 cdl-dc-app-launcher
例如: sh upgrade_client.sh upgrade /opt/client/ 更新客户端配置 当前补丁Spark组件优化了数据库和表的location的黑名单目录列表,在{客户端安装目录}/Spark/spark/conf/spark-defaults.conf文件的参数spark
行读操作。 HDFS文件系统中目录结构如下表所示。 表1 HDFS文件系统目录结构(适用于MRS 3.x之前版本) 路径 类型 简略功能 是否可以删除 删除的后果 /tmp/spark/sparkhive-scratch 固定目录 存放Spark JDBCServer中metastore
只有集群处于“运行中”状态时才能提交作业。 作业提交成功后默认为“已接受”状态,不需要用户手动执行作业。 查看作业执行结果。 进入“作业管理”页面,查看作业是否执行完成。 作业运行需要时间,作业运行结束后,刷新作业列表,查看作业列表如图5所示。 图5 作业列表 作业执行成功或失败后都不能再次执行,只能新增或者复制作业,配置作业参数后重新提交作业。
Put相关参数 参数 描述 默认值 hbase.wal.hsync 每一条wal是否持久化到硬盘。 参考提升HBase连续Put数据场景性能。 true hbase.hfile.hsync hfile写是否立即持久化到硬盘。 参考提升HBase连续Put数据场景性能。 true hbase
只有集群处于“运行中”状态时才能提交作业。 作业提交成功后默认为“已接受”状态,不需要用户手动执行作业。 查看作业执行结果。 进入“作业管理”页面,查看作业是否执行完成。 作业运行需要时间,作业运行结束后,刷新作业列表。 作业执行成功或失败后都不能再次执行,只能新增作业,配置作业参数后重新提交作业。 进入Yarn原生界面,查看作业输出信息。
monitor.capacity.preemption.max_wait_before_kill”的时间内,任务会回收所抢占资源的近95%。即接连抢占5次,每次抢占待抢占资源的0.5,呈几何收敛,每次的时间间隔为“yarn.resourcemanager.monitor.capacity.preemption
使用“create materialized view”创建具备自动刷新的物化视图。 如果物化视图过多,可能会导致物化视图在刷新的等待队列中等待时间过长而过期。 自动刷新功能不会自动刷新状态为disable的物化视图。 查询外部Hive数据源使用自动刷新物化视图注意事项 维护实例默认使
创建一个新表orders,使用子句with指定创建表的存储格式、存储位置、以及是否为外表。 通过“auto.purge”参数可以指定涉及到数据移除操作(如DROP、DELETE、INSERT OVERWRITE、TRUNCATE TABLE)时是否清除相关数据: "auto.purge"='true'时,清除元数据和数据文件。
Hue故障排除 使用Hive输入use database语句失效 使用Hue WebUI访问HDFS文件失败 在Hue页面上传大文件失败 集群未安装Hive服务时Hue原生页面无法正常显示 访问Hue原生页面时间长,文件浏览器报错Read timed out 父主题: 使用Hue
Hue常见问题 使用Hive输入use database语句失效 使用Hue WebUI访问HDFS文件失败 在Hue页面上传大文件失败 Hue WebUI中Oozie编辑器的时区设置问题 访问Hue原生页面时间长,文件浏览器报错Read timed out 父主题: 使用Hue(MRS
MRS集群节点类型包括Master节点、Core节点和Task节点。 Master节点:集群中的管理节点。分布式系统的Master进程和Manager以及数据库均部署在该节点;该类型节点不可扩容。该类型节点的处理能力决定了整个集群的管理上限,MRS服务支持将Master节点规格提高,以支持更大集群的管理。