检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
个草图,可以在查询分区中所有元素的approx_distinct(),即每个元素出现的近似次数,进而通过很小的开销去完成整个查询。 例如,只要计算每日每个用户浏览了多少次网页,就可以通过累加的方式,去计算每周、每年对应的数据,类似于通过汇总每日收入来计算每周收入。 可以将appr
'binary:<value>')"} 回答 由于HBase的可扩展性,在查询表的时候,默认情况下会匹配被查询列的所有版本的值,即使被删除或被修改的值也可以查询出来。对于命中列失败的行(即在某一行中不存在该列),HBase会将该行查询出来。 如果用户仅需查询该表的最新值和命中列成功的行,可使用如下查询语句: scan
通过选择集群所建的区域及使用的云资源规格,一键式购买适合企业业务的MRS集群。MRS服务会根据用户选择的集群类型、版本和节点规格,帮助客户自动完成华为云企业级大数据平台的安装部署和参数调优。 MRS服务为客户提供完全可控的大数据集群,客户在创建时可设置虚拟机的登录方式(密码或者
重装ECS操作系统,以及修改ECS规格的操作,可能影响集群稳定运行。 如果您对MRS集群节点进行了上述操作,MRS会自动识别并直接删除发生变更的集群节点。 您可以登录MRS管理控制台,通过扩容恢复已经删除的节点。请勿在扩容过程中对正在扩容的节点进行操作。 父主题: 节点管理类
参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 如果没有将元数据备份到第三方服务器,当集群主备管理节点同时故障且本地备份数据丢失时,若想要通过备份包恢复集群元数据则没有可用的备份包数据无法恢复。
同开源的调度器相比,Superior Scheduler同时提供了租户级百分比和绝对值的混配策略,可以很好的适应各种灵活的企业级租户资源调度诉求。例如,用户可以在一级租户提供最大绝对值的资源保障,这样租户的资源不会因为集群的规模改变而受影响。但在下层的子租户之间,可以提供百分比
在“角色”,单击“添加”选择指定的角色并添加。 对于已启用Ranger授权的组件(HDFS与Yarn除外),Manager上非系统默认角色的权限将无法生效,需要通过配置Ranger策略为用户组赋权。 HDFS与Yarn的资源请求在Ranger中的策略条件未能覆盖的情况下,组件ACL规则仍将生效。
配置FlinkServer作业中使用UDF 本章节适用于MRS 3.1.2及之后的版本。 用户可以自定义一些函数,用于扩展SQL以满足个性化的需求,这类函数称为UDF。用户可以在Flink WebUI界面中上传并管理UDF jar包,然后在运行作业时调用相关UDF函数。 Flink支持以下3类自定义函数,如表1。
通过add jar命令指定jar包路径的,其他服务进程的classpath不存在这些jar包,因此会出现ClassNotfound的错误从而导致删除失败。 解决方法:该方式创建的UDF不支持通过其他方式删除,只能通过与创建时一致的方式删除。 父主题: SQL和DataFrame
Flink支持不同的重启策略,以在发生故障时控制作业是否重启以及如何重启。若不指定重启策略,集群会使用默认的重启策略。用户也可以在提交作业时指定一个重启策略,可参考创建FlinkServer作业在作业开发界面配置(MRS 3.1.0及以后版本)。 重启策略也可以通过Flink的配置文件“
如何在Hive自定义函数中操作本地文件 问题 在Hive自定义函数中需要操作本地文件,例如读取文件的内容,需要如何操作? 回答 默认情况下,可以在UDF中用文件的相对路径来操作文件,如下示例代码: public String evaluate(String text) { //
MRS作为一个海量数据管理和分析的平台,具备高安全性。MRS主要从以下几个方面保障用户的数据和业务运行安全。 网络隔离 整个系统部署在公有云上的虚拟私有云中,提供隔离的网络环境,保证集群的业务、管理的安全性。结合虚拟私有云的子网划分、路由控制、安全组等功能,为用户提供高安全、高可靠的网络隔离环境。
increment stats <table_name>刷新常用表的统计信息,加速查询 Impala依赖表统计信息对查询消耗的资源做预估,准确的统计信息有利于Impala更合理地解析执行计划,分配资源。 定时进行小文件合并,减少单表的文件数量,提升元数据加载速率 Impala元数据和分区、
此参数是session级别设置,表示可并发执行的fragment数量,对CPU消耗较大,因此一般情况下不需要设置此参数。如果需要设置此参数来加速查询性能,必须遵循以下规则: 切勿设置该参数为全局生效,禁止使用set global方式进行设置。 设置参数值建议为偶数2或4(最大值不要超过单节点CPU核数的一半)。 设
Hive”,勾选“Hive管理员权限”。 单击“用户”,单击1.c新创建的用户所在行的“修改”。 在修改用户页面,单击“角色”右侧的添加,添加新创建的具有Hive管理员权限的角色,单击“确定”。 把以上程序打包成AddDoublesUDF.jar,并上传至客户端安装节点,例如“op
合理使用数据表的分区字段和索引字段。 MergeTree引擎,数据是以分区目录的形式进行组织存储的,在进行的数据查询时,使用分区可以有效跳过无用的数据文件,减少数据的读取。 MergeTree引擎会根据索引字段进行数据排序,并且根据index_granularity的配置生成稀疏索
当完成MRS集群部署后,可以根据自身的业务需求使用MRS提供的一系列常用实践。 表1 MRS常用最佳实践 实践 描述 数据分析 使用Spark2x实现车联网车主驾驶行为分析 本实践指导使用Spark实现车主驾驶行为分析。用于了解MRS的基本功能,利用MRS服务的Spark2x组件,对车主的驾驶行为
Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言,称为HiveQL,它允许熟悉SQL的用户查询数据。Hive的数据计算依赖于MapReduce、Spark、Tez。
在建表设计时指定主键字段的建议:按查询时最常使用且过滤性最高的字段作为主键。依次按照访问频度从高到低、维度基数从小到大来排列。数据是按照主键排序存储的,查询的时候,通过主键可以快速筛选数据,合理的主键设计,能够大大减少读取的数据量,提升查询性能。例如所有的分析,都需要指定业务的id,则可以将业务id字段作为主键的第一个字段顺序。
RS集群,需要在删除组件或者集群后,手工将OBS上相关的业务数据进行删除。 删除MRS按需集群 登录MRS管理控制台。 在左侧导航栏中选择“现有集群”。 在需要删除的集群对应的“操作”列中,单击“删除”。如果确认删除,在弹出的“删除集群”窗口中输入“DELETE ”,单击“确定”。