检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
勾选确认信息后,单击“确定”,进入Manager登录页面。 输入默认用户名“admin”及创建集群时设置的密码,单击“登录”进入Manager页面。 如需给其他网络段用户开通访问Manager的权限,可手动修改安全组,添加对应用户访问公网的IP地址范围。 在集群信息页面单击弹性公网IP后的“添加安全组规则”如图2所示。
refresh即可增量更新元数据。 定时使用compute increment stats <table_name>刷新常用表的统计信息,加速查询 Impala依赖表统计信息对查询消耗的资源做预估,准确的统计信息有利于Impala更合理地解析执行计划,分配资源。 定时进行小文件合
on_xxx/jobs/),其中的<hostname>没有在Windows系统的hosts文件中添加域名信息,导致DNS查找失败无法显示此网页。 解决措施: 建议用户使用FusionInsight代理去访问Spark JobHistory页面,即单击如图2中蓝框所示的Spark WebUI的链接。
算资源+专属存储资源、专属计算资源+专属存储资源。 主机安全 MRS支持与公有云安全服务集成,支持漏洞扫描、安全防护、应用防火墙、堡垒机、网页防篡改等。针对操作系统和端口部分,华为云提供如下安全措施: 操作系统内核安全加固 操作系统权限控制 操作系统端口管理 应用安全 通过如下措施保证大数据业务正常运行:
此参数是session级别设置,表示可并发执行的fragment数量,对CPU消耗较大,因此一般情况下不需要设置此参数。如果需要设置此参数来加速查询性能,必须遵循以下规则: 切勿设置该参数为全局生效,禁止使用set global方式进行设置。 设置参数值建议为偶数2或4(最大值不要超过单节点CPU核数的一半)。
on_xxx/jobs/),其中的<hostname>没有在Windows系统的hosts文件中添加域名信息,导致DNS查找失败无法显示此网页。 解决措施: 建议用户使用FusionInsight代理去访问Spark JobHistory页面,即单击如图2中蓝框所示的Spark WebUI的链接。
YARN开源增强特性:重启性能优化 一般情况下,RM恢复会获取正在运行和已完成的应用。而大量的已完成的应用可能导致RM启动过慢、HA切换/重启耗时过长等问题。 为了加速RM的启动,现在优先获取未完成的应用列表,再启动RM。此时,已完成的应用会在一个后台异步线程中继续恢复。下图展示了RM的启动恢复流程。 图5
‘2020-11-03’; 在分组、join等操前做数据过滤,减少计算的数据量。 【效果对比】 用PREWHERE替代WHERE,优先过滤数据,加速查询。 PREWHERE相对于WHERE在执行时的区别:首先只读取PREWHERE表达式所指定的列,根据条件做数据过滤,再根据过滤后的数据
MRS节点访问OBS报错408如何处理? 问: MRS节点访问OBS报错408,怎么办? 答: MRS节点访问OBS报错408时,用户需要更换OBS域名。 修改OBS域名为myhuaweicloud.com后缀的域名即可。 父主题: 作业管理类
的approx_distinct(),即每个元素出现的近似次数,进而通过很小的开销去完成整个查询。 例如,只要计算每日每个用户浏览了多少次网页,就可以通过累加的方式,去计算每周、每年对应的数据,类似于通过汇总每日收入来计算每周收入。 可以将approx_distinct()与GROUPING
数据(minmax、set), 或者是保留计算后的中间数据(bloomfilter)。在查询时,选择忽略加载不会包含结果的数据块,从而达到加速查询的效果。 索引定义 INDEX index_name expr TYPE type(...) GRANULARITY granularity_value
Kafka Topic监控页签在Manager页面不显示如何处理? 问: Kafka Topic监控页签在Manager页面不显示怎么办? 答: 分别登录集群Master节点,并切换用户为omm。 进入目录“/opt/Bigdata/apache-tomcat-7.0.78/we
导入DWS表数据至ClickHouse ClickHouse支持CSV、JSON等格式文件的数据导入导出操作。本章节主要介绍怎么把DWS数据仓库服务中的表数据导出到CSV文件,再把CSV文件数据导入到ClickHouse表中。 前提条件 ClickHouse集群和实例状态正常。
RS的基本功能,利用MRS服务的Spark2x组件,对车主的驾驶行为进行分析统计,得到用户驾驶行为的分析结果,分析统计指定时间段内,车主急加速、急减速、空挡滑行、超速、疲劳驾驶等违法行为的次数。 使用Hive加载HDFS数据并分析图书评分情况 本实践指导使用Hive对原始数据进行
导入DWS表数据至ClickHouse ClickHouse支持CSV、JSON等格式文件的数据导入导出操作。本章节主要介绍怎么把DWS数据仓库服务中的表数据导出到CSV文件,再把CSV文件数据导入到ClickHouse表中。 前提条件 ClickHouse集群和实例状态正常。
如何关闭ZooKeeper的SASL认证? 问: 怎么关闭ZooKeeper SASL认证? 答: 登录FusionInsight Manager。 选择“集群 > 服务 > ZooKeeper > 配置 > 全部配置”。 在左侧导航栏选择“quorumpeer > 自定义”添加参数名称和值:zookeeper
指定列为输入的字段。 HBase输入:HBase表输入步骤,配置HBase表的列定义到指定字段。 HTML输入:HTML网页数据输入步骤,配置获取HTML网页文件目标数据到指定字段。 Hive输入:Hive表输入步骤,配置Hive表的列定义到指定字段。 Spark输入:Spark
指定列为输入的字段。 HBase输入:HBase表输入步骤,配置HBase表的列定义到指定字段。 HTML输入:HTML网页数据输入步骤,配置获取HTML网页文件目标数据到指定字段。 Hive输入:Hive表输入步骤,配置Hive表的列定义到指定字段。 Spark输入:Spark
景。 如果未申请独享的存储池,请选择“云硬盘”,创建的磁盘使用公共存储资源。 专属分布式存储:为用户提供独享的存储资源,通过数据冗余和缓存加速等多项技术,提供高可用性和持久性,以及稳定的低时延性能。 如果您在专属分布式存储服务页面申请了存储池,可以选择“专属分布式存储”,在已申请的存储池中创建磁盘。
errors.count() textFile算子从HDFS读取日志文件,返回file(作为RDD)。 filter算子筛出带“ERROR”的行,赋给errors(新RDD)。filter算子是一个Transformation操作。 cache算子缓存下来以备未来使用。 count算子返回