检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
B表都有个名为name的列。对A、B表进行join操作。 估计表的大小。 根据每次加载数据的大小,来估计表大小。 也可以在Hive的数据库存储路径下直接查看表的大小。首先在Spark的配置文件“hive-site.xml”中,查看Hive的数据库路径的配置,默认为“/user/hive/warehouse”。
Client:第三方ZooKeeper使用该配置进行访问连接,具体连接认证配置由第三方ZooKeeper版本决定。 [7] password:密码明文存储存在安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 父主题: 配置HBase应用安全认证
系统会根据配置的日志大小自动清理日志,如果需要保存更多的信息请设置一个较大的数值。为确保日志文件的完整性,建议根据实际业务量大小,在日志文件基于规则清理前,手动将日志文件备份存储至其他文件夹中。 个别服务不支持通过界面修改日志级别。 单击“保存”,在“保存配置”单击“确定”。 验证日志级别设置已生效,请下载日志并查看。
'obs://XXXXXXXXXXXXXXXXXX/', --指定Hudi表的存储路径。 'table.type' = 'MERGE_ON_READ',
like order01 INCLUDING PROPERTIES; 创建表orders_like02,它将包含表order02定义的列,并将表的存储格式设置为‘TEXTFILE’ CREATE TABLE orders_like02 like order02 STORED AS TEXTFILE;
描述 示例 Link Type 连接类型。 hudi Name 连接配置名称。 hudilink Storage Type 存储类型。 hdfs:数据存储到HDFS中。 hdfs Auth KeytabFile 访问用户的keytab文件。可单击“上传文件”进行上传。 安全模式集
成长地图 | 华为云 MapReduce服务 MapReduce服务(MapReduce Service)提供租户完全可控的企业级大数据集群云服务,可轻松运行Hadoop、Spark、HBase、Kafka等大数据组件。 图说MRS 产品介绍 仅两个按钮时选用 立即购买 成长地图
失。 查看调测结果 Spark应用程序运行完成后,可通过如下方式查看应用程序的运行情况。 通过运行结果数据查看应用程序运行情况。 结果数据存储路径和格式已经由Spark应用程序指定,可通过指定文件获取。 登录Spark WebUI查看应用程序运行情况。 Spark主要有两个Web页面。
算子操作方法示意 设置数据保存信息并运行作业 单击“下一步”,进入“输出设置”界面,在“存储类型”选择“HIVE”,设置数据保存方式。 表4 输出设置参数 参数名 说明 示例 输出目录 数据导入到Hive里存储的保存目录。 说明: 路径参数可以使用宏定义,具体请参考Loader算子配置项中使用宏定义。
失。 查看调测结果 Spark应用程序运行完成后,可通过如下方式查看应用程序的运行情况。 通过运行结果数据查看应用程序运行情况。 结果数据存储路径和格式已经由Spark应用程序指定,可通过指定文件获取。 登录Spark WebUI查看应用程序运行情况。 Spark主要有两个Web页面。
shuffle.service.enabled false true 调整Spark调度参数优化OBS场景下Spark调度时延 开启对于OBS存储,可以关闭Spark的本地性进行优化,尽可能提升Spark调度效率 配置项 集群默认值 调整后 --conf spark.locality
算子操作方法示意 设置数据保存信息并运行作业 单击“下一步”,进入“输出设置”界面,在“存储类型”选择“HIVE”,设置数据保存方式。 表4 输出设置参数 参数名 说明 示例 输出目录 数据导入到Hive里存储的保存目录。 说明: 路径参数可以使用宏定义,具体请参考配置项中使用宏定义。 /opt/tempfile
开启了Ranger鉴权的集群的Hive表支持开启表的级联授权功能,极大地提升了鉴权易用性,只需在Ranger页面上对业务表进行一次授权,后台就会自动细粒度关联数据存储源的权限,不需要感知表的存储路径,无需进行二次授权。同时也补齐了基于存算分离授权功能的缺陷。详细操作请参见Hive表支持级联授权功能。 Hive使用场景及对应权限
HBase的“fs.defaultFS”配置参数需要与Yarn、HDFS的配置保持一致。 如果HBase数据存储在本地HDFS,支持将HBase元数据备份到OBS。如果HBase数据存储在OBS,则不支持数据备份。 如果数据要备份至OBS中,需要当前集群已对接OBS,并具有访问OBS的权限。
更换CA证书 操作场景 MRS CA证书用于组件客户端与服务端在通信过程中加密数据,实现安全通信。该任务指导集群用户通过FusionInsight Manager完成CA证书替换工作,以确保产品安全使用。适用于以下场景: 首次安装好集群以后,需要更换企业证书。 企业证书有效时间已过期或安全性加强,需要更换为新的证书。
失败重试次数超过这个值,就会删除该任务记录,下次运行时将从头开始运行,默认是10次。 beeline.reconnect.zk.path:存储任务执行进度的根节点,Hive服务默认是/beeline。 父主题: Hive企业级能力增强
产生告警的NameService名称。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 HDFS存储数据丢失,HDFS可能会进入安全模式,无法提供写服务。丢失的块数据无法恢复。 可能原因 DataNode实例异常。 数据被删除。 处理步骤
产生告警的NameService名称。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 HDFS存储数据丢失,HDFS可能会进入安全模式,无法提供写服务。丢失的块数据无法恢复。 可能原因 DataNode实例异常。 数据被删除。 写入文件的副本数大于DataNode的节点数。
设置数据保存信息并运行作业 单击“下一步”,进入“输出设置”界面,根据实际场景在“存储类型”选择“HBASE_BULKLOAD”或“HBASE_PUTLIST”,设置数据保存方式。 表4 输出设置参数 存储类型 适用场景 参数名 说明 示例 HBASE_BULKLOAD 数据量大 HBase实例
设置数据保存信息并运行作业 单击“下一步”,进入“输出设置”界面,根据实际场景在“存储类型”选择“HBASE_BULKLOAD”或“HBASE_PUTLIST”,设置数据保存方式。 表4 输出设置参数 存储类型 适用场景 参数名 说明 示例 HBASE_BULKLOAD 数据量大 HBase实例