检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
的approx_distinct(),即每个元素出现的近似次数,进而通过很小的开销去完成整个查询。 例如,只要计算每日每个用户浏览了多少次网页,就可以通过累加的方式,去计算每周、每年对应的数据,类似于通过汇总每日收入来计算每周收入。 可以将approx_distinct()与GROUPING
典型场景:从SFTP服务器导入数据到Hive 操作场景 该任务指导用户使用Loader将数据从SFTP服务器导入到Hive。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业中指定的Hive表的权限。 获取SFTP服务器使用的用户和密码,
YARN开源增强特性:重启性能优化 一般情况下,RM恢复会获取正在运行和已完成的应用。而大量的已完成的应用可能导致RM启动过慢、HA切换/重启耗时过长等问题。 为了加速RM的启动,现在优先获取未完成的应用列表,再启动RM。此时,已完成的应用会在一个后台异步线程中继续恢复。下图展示了RM的启动恢复流程。 图5
算资源+专属存储资源、专属计算资源+专属存储资源。 主机安全 MRS支持与公有云安全服务集成,支持漏洞扫描、安全防护、应用防火墙、堡垒机、网页防篡改等。针对操作系统和端口部分,华为云提供如下安全措施: 操作系统内核安全加固 操作系统权限控制 操作系统端口管理 应用安全 通过如下措施保证大数据业务正常运行:
配置FlinkServer作业中使用UDF 本章节适用于MRS 3.1.2及之后的版本。 用户可以自定义一些函数,用于扩展SQL以满足个性化的需求,这类函数称为UDF。用户可以在Flink WebUI界面中上传并管理UDF jar包,然后在运行作业时调用相关UDF函数。 Flink支持以下3类自定义函数,如表1。
‘2020-11-03’; 在分组、join等操前做数据过滤,减少计算的数据量。 【效果对比】 用PREWHERE替代WHERE,优先过滤数据,加速查询。 PREWHERE相对于WHERE在执行时的区别:首先只读取PREWHERE表达式所指定的列,根据条件做数据过滤,再根据过滤后的数据
访问MRS集群Manager(2.x及之前版本) 访问MRS集群Manager场景 MRS集群提供Manager对集群进行监控、配置和管理,用户在集群安装后可使用admin用户登录Manager页面。 当前支持以下几种方式访问Manager,请根据实际情况进行选择: 通过弹性IP访问FusionInsight
数据(minmax、set), 或者是保留计算后的中间数据(bloomfilter)。在查询时,选择忽略加载不会包含结果的数据块,从而达到加速查询的效果。 索引定义 INDEX index_name expr TYPE type(...) GRANULARITY granularity_value
RS的基本功能,利用MRS服务的Spark2x组件,对车主的驾驶行为进行分析统计,得到用户驾驶行为的分析结果,分析统计指定时间段内,车主急加速、急减速、空挡滑行、超速、疲劳驾驶等违法行为的次数。 使用Hive加载HDFS数据并分析图书评分情况 本实践指导使用Hive对原始数据进行
指定列为输入的字段。 HBase输入:HBase表输入步骤,配置HBase表的列定义到指定字段。 HTML输入:HTML网页数据输入步骤,配置获取HTML网页文件目标数据到指定字段。 Hive输入:Hive表输入步骤,配置Hive表的列定义到指定字段。 Spark输入:Spark
指定列为输入的字段。 HBase输入:HBase表输入步骤,配置HBase表的列定义到指定字段。 HTML输入:HTML网页数据输入步骤,配置获取HTML网页文件目标数据到指定字段。 Hive输入:Hive表输入步骤,配置Hive表的列定义到指定字段。 Spark输入:Spark
自定义排序器 编写自定义排序类继承BulkInsertPartitioner,在写入Hudi时加入配置: .option(BULKINSERT_USER_DEFINED_PARTITIONER_CLASS, <自定义排序类的包名加类名>) 自定义分区排序器样例: public class
自定义排序器 编写自定义排序类继承BulkInsertPartitioner,在写入Hudi时加入配置: .option(BULKINSERT_USER_DEFINED_PARTITIONER_CLASS, <自定义排序类的包名加类名>) 自定义分区排序器样例: public class
自定义排序器 编写自定义排序类继承BulkInsertPartitioner,在写入Hudi时加入配置: .option(BULKINSERT_USER_DEFINED_PARTITIONER_CLASS, <自定义排序类的包名加类名>) 自定义分区排序器样例: public class
自定义排序器 编写自定义排序类继承BulkInsertPartitioner,在写入Hudi时加入配置: .option(BULKINSERT_USER_DEFINED_PARTITIONER_CLASS, <自定义排序类的包名加类名>) 自定义分区排序器样例: public class
切换MRS租户资源调度器 操作场景 新安装的MRS集群默认即使用了Superior调度器,集群管理员可以根据实际情况参考以下指导切换集群调度器。 前提条件 确保集群网络通畅,网络环境安全,Yarn服务状态正常。 在切换调度器期间,不允许做添加、删除、修改租户,以及启停服务等操作。
计费类 创建MRS集群时计价器为什么未显示价格? MRS集群中的弹性伸缩功能如何收费? MRS集群的Task节点如何收费? 退订MRS集群后在ECS中退订弹性云服务器时报异常如何处理?
景。 如果未申请独享的存储池,请选择“云硬盘”,创建的磁盘使用公共存储资源。 专属分布式存储:为用户提供独享的存储资源,通过数据冗余和缓存加速等多项技术,提供高可用性和持久性,以及稳定的低时延性能。 如果您在专属分布式存储服务页面申请了存储池,可以选择“专属分布式存储”,在已申请的存储池中创建磁盘。
登录MRS集群节点 本章节介绍如何使用弹性云服务器管理控制台上提供的远程登录(VNC方式)和如何使用密钥或密码方式(SSH方式)登录MRS集群中的节点,远程登录主要用于紧急运维场景,远程登录弹性云服务器进行相关维护操作。其他场景下,建议用户采用SSH方式登录。 如果需要使用SSH
修改MRS集群NTP服务器 如果未配置NTP服务器或已配置的NTP不再使用,管理员可以为MRS集群重新指定或者更换新的NTP服务器,使集群从新的NTP时钟源同步时间。 本章节仅适用于MRS 3.x及以后版本。 修改MRS集群NTP服务器前提条件 请准备新的NTP服务器并获取IP地