检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
登录FusionInsight Manager。 选择“集群 > 服务 > Spark2x > 更多 > 启用Ranger鉴权”,查看该参数是否置灰。 是,创建用户并在Ranger中赋予该用户相关操作权限: 选择“系统 > 权限 > 用户 > 添加用户”,在新增用户界面创建一个机机用户,例如developuser。
<Topic名称> --group <消费者组名称> MRS 1.6.3及之前版本,无论集群是否开启Kerberos认证ZooKeeper默认端口号均为24002。MRS 1.6.3及之后版本,无论集群是否开启Kerberos认证ZooKeeper默认端口号均为2181。 针对不同的Topic访问场景
takeSample(withReplacement,num,seed)对dataset随机抽样,返回由num个元素组成的数组。withReplacement表示是否使用replacement。 saveAsTextFile(path: String): Unit 把dataset写到一个text fi
SUSPEND:挂起状态,不能改写,不能刷新 State:物化视图有效期 Stale:物化视图过期 Valid:物化视图未过期,正常状态 SyncStatus:物化视图缓存是否同步 SHOW MATERIALIZED VIEWS FROM tpcds; hetuengine:tpcds_2gb> SHOW MATERIALIZED
跨资源池调度 - 表示当前队列内Container是否支持跨资源池调度。(仅MRS 3.3.0及之后版本支持配置该参数) default队列不支持开启跨资源池调度。 AM跨资源池调度 - 表示当前队列内Application Master是否支持跨资源池调度。(仅MRS 3.3.0及之后版本支持配置该参数)
参数说明 参数 说明 默认值 spark.streaming.Kafka.reliability Spark Streaming对接Kafka是否开启可靠性功能: true:开启可靠性功能 false:不开启可靠性功能 false 父主题: Spark Streaming企业级能力增强
lter_config.json 根据实际需要配置或新增参数。 告警ID:待配置告警的ID,例如“12016”。 is_filtered:是否屏蔽告警。“true”表示屏蔽告警,不上报告警;“false”表示经过平滑次数后上报。 smoothing_times:平滑次数,告警产生
r.port”,获取HSBroker端口号。 user 访问HetuEngine的用户名,即在集群中创建的“机机”用户的用户名。 SSL 是否使用HTTPS连接,默认为“false” 父主题: HetuEngine样例程序(Java)
eRecordPayload,该Payload通过比较增量数据与存量数据的preCombineField字段值的大小来决定同主键的存量数据是否能被同主键的增量数据更新。在同主键的增量数据的preCombineField字段值绝对大于同主键的存量数据的preCombineField字段值时,同主键的增量数据将会被更新。
服务获权并判断:当接收到客户端的DDL、DML的SQL命令时,HetuEngine服务会向MetaStore服务获取客户端用户对数据库信息的已有权限,并检查是否包含了所需的所有权限,如果是则继续执行,否则拒绝该用户的操作。当通过了MetaStore的权限检查后,还需进行HDFS的ACLs权限检查。
is_finite(x) → boolean 判断x是否有限值。 select is_finite(infinity());-- false select is_finite(50000);--true is_infinite(x) → boolean 判断x是否无穷大。 select is_in
参数说明 参数 说明 默认值 spark.streaming.Kafka.reliability Spark Streaming对接Kafka是否开启可靠性功能: true:开启可靠性功能 false:不开启可靠性功能 false 父主题: Spark Streaming企业级能力增强
查询Hive表数据 功能介绍 本小节介绍了如何使用HQL对数据进行查询分析。从本节中可以掌握如下查询分析方法: SELECT查询的常用特性,如JOIN等。 加载数据进指定分区。 如何使用Hive自带函数。 如何使用自定义函数进行查询分析,如何创建、定义自定义函数请见创建Hive用户自定义函数。
values("12005000201","A","男",19,"A城市"); 在用户信息表user_info中新增用户的学历、职称信息。 以增加编号为12005000201的用户的学历、职称信息为例,其他用户类似。 alter table user_info add columns(education
多租户资源管理 特性简介 现代企业的数据集群在向集中化和云化方向发展,企业级大数据集群需要满足: 不同用户在集群上运行不同类型的应用和作业(分析、查询、流处理等),同时存放不同类型和格式的数据。 部分用户(例如银行、政府单位等)对数据安全非常关注,不接受将自己的数据与其他用户放在一起。
PUT /v2/{project_id}/clusters/{cluster_id}/agency-mapping 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 参数解释: 项目编号。获取方法,请参见获取项目ID。 约束限制: 不涉及 取值范围:
集群生命周期管理 MRS支持集群的生命周期管理包括创建集群和删除集群。 创建集群:支持用户定制集群的类型、组件范围、各类型的节点数、虚拟机规格、可用区、VPC网络、认证信息,MRS将为用户自动创建一个符合配置的集群,全程无需用户参与;同时支持用户在集群中运行自定义内容;支持快速创
Spark On Hudi性能调优 优化Spark Shuffle参数提升Hudi写入效率 开启spark.shuffle.readHostLocalDisk=true,本地磁盘读取shuffle数据,减少网络传输的开销。 开启spark.io.encryption.enable
例如安装目录为“/opt/client”,则执行以下命令: cd /opt/client 执行以下命令配置环境变量。 source bigdata_env 集群认证模式是否为安全模式。 是,执行以下命令进行用户认证: kinit Hive业务用户 否,执行5。 执行以下命令,将需要关联的关系型数据库驱动Jar包上传到HDFS目录下。
在欧洲地区有业务的用户,可以选择“欧洲-巴黎”区域。 资源的价格 不同区域的资源价格可能有差异,请参见华为云服务价格详情。 如何选择可用区? 是否将资源放在同一可用区内,主要取决于您对容灾能力和网络时延的要求。 如果您的应用需要较高的容灾能力,建议您将资源部署在同一区域的不同可用区内。