检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ClickHouse基本原理 ClickHouse简介 ClickHouse是一款开源的面向联机分析处理的列式数据库,其独立于Hadoop大数据体系,最核心的特点是压缩率和极速查询性能。同时,ClickHouse支持SQL查询,且查询性能好,特别是基于大宽表的聚合分析查询性能非常
开发和部署HetuEngine UDF 用户可以自定义一些函数,用于扩展SQL以满足个性化的需求,这类函数称为UDF。 本章节主要介绍开发和应用HetuEngine UDF。 MRS 3.2.1及以后版本,需要基于JDK17.0.4及以上版本开发。本章节以MRS 3.3.0版本为例。
FlinkSQL支持MultiJoin算子 本章节适用于MRS 3.5.0及以后版本。 当使用Flink的Full outer Join算子实现宽表拼接功能时,由于状态会被多次重复存储导致状态后端压力大,计算性能差。使用MultiJoin算子进行宽表拼接计算性能可以提升1倍。 F
使用Jupyter Notebook对接MRS Spark 应用场景 在MRS服务中可以配合Jupyter Notebook使用PySpark,能够提高机器学习、数据探索和ETL应用开发效率。 本实践指导用户如何在MRS集群中配置Jupyter Notebook来使用Pyspark。
ALM-38017 分区均衡时间超过阈值 告警解释 系统每10分钟(可以通过修改Kafka配置项“auto.reassign.check.interval.ms”调整)周期性检测,扩容新的Broker后触发的分区均衡时间超过阈值(默认为1440分钟,可以通过修改Kafka配置项“reassignment
配置Flink通过IAM委托访问OBS 参考配置MRS集群通过IAM委托对接OBS完成存算分离集群配置后,即可在Flink客户端访问OBS并行文件系统并运行作业。 Flink对接OBS 使用安装客户端的用户登录Flink客户端安装节点。 执行如下命令初始化环境变量。 source
配置Hive通过Guardian访问OBS 参考配置Guardian服务对接OBS完成Guardian对接OBS后,即可在Hive客户端创建存储在OBS并行文件系统中的表。 Hive对接OBS MRS集群支持Hive服务基于Metastore方式对接OBS。 配置Hive基于MetaStore方式对接OBS:
ALM-18025 Yarn被终止的任务数超过阈值 告警解释 告警模块按60秒周期检测Yarn root队列上被终止的应用的数量,当root队列上该监控周期内新增的被终止的应用的数量超过50,且连续发生3次以上时,触发该告警。 告警属性 告警ID 告警级别 是否自动清除 18025
创建FlinkServer作业写入数据至HDFS文件系统 本章节适用于MRS 3.1.2及之后的版本。 操作场景 本章节介绍HDFS作为sink表的DDL定义,以及创建sink表时使用的WITH参数和代码示例,并指导如何在FlinkServer作业管理页面操作。 本示例以安全模式Kafka为例。
Flink任务开发建议 高可用性下考虑提高Checkpoint保存数 Checkpoint保存数默认是1,也就是只保存最新的Checkpoint的状态文件,当进行状态恢复时,如果最新的Checkpoint文件不可用(比如HDFS文件所有副本都损坏或者其他原因),那么状态恢复就会失
使用Loader导入数据 操作场景 该任务指导用户完成将数据从外部的数据源导入到MRS的工作。 一般情况下,用户可以手工在Loader界面管理数据导入导出作业。当用户需要通过shell脚本来更新与运行Loader作业时,必须对已安装的Loader客户端进行配置。 前提条件 创建或
/opt/client/ 回退手动的操作 不涉及。 补丁卸载完成后重新打开弹性伸缩 如果卸载补丁前关闭了弹性伸缩,请卸载完成后重新打开。 登录华为云MRS管理控制台,在“现有集群”列表中选择对应集群,单击“弹性伸缩”页签。 请开启卸载前关闭的弹性策略。 父主题: 回滚补丁
INSERT 语法 INSERT { INTO | OVERWRITE } [TABLE] table_name [(column_list)] [ PARTITION (partition_clause)] {select_statement | VALUES (value [
使用Loader导入数据至MRS集群 操作场景 该任务指导用户完成将数据从外部的数据源导入到MRS的工作。 一般情况下,用户可以手工在Loader界面管理数据导入导出作业。当用户需要通过shell脚本来更新与运行Loader作业时,必须对已安装的Loader客户端进行配置。 前提条件
MapReduce应用开发常用概念 Hadoop shell命令 Hadoop基本shell命令,包括提交MapReduce作业,kill MapReduce作业,进行HDFS文件系统各项操作等。 MapReduce输入输出(InputFormat,OutputFormat) M
ALM-18026 Yarn上运行失败的任务数超过阈值 告警解释 告警模块按60秒周期检测Yarn root队列上失败的应用的数量,当root队列上该监控周期内新增的运行失败的应用的数量超过50时,且连续发生3次以上,触发该告警。 告警属性 告警ID 告警级别 是否自动清除 18026
查看Ranger用户权限同步信息 查看Ranger相关权限设置信息,例如查看用户、用户组、Role。 查看Ranger权限信息 使用Ranger管理员用户rangeradmin登录Ranger管理页面,具体操作可参考登录Ranger WebUI界面。 选择“Settings >
通过Hue创建Sqoop任务将数据从HBase导入HDFS时报错 用户问题 利用Hue的Sqoop操作把HBase中的数据导入HDFS时报错: Caused by: java.lang.ClassNotFoundException: org.apache.htrace.Trace
数据保护技术 数据完整性 通过数据校验,保证数据在存储、传输过程中的数据完整性。 MRS的用户数据保存在HDFS中,HDFS默认采用CRC32C算法校验数据的正确性,同时也支持CRC32校验算法,CRC32C校验速度快于CRC32。HDFS的DataNode节点负责存储校验数据,
修改Kafka Topic配置 操作场景 用户可以根据业务需要,使用集群客户端创建Kafka Topic。启用Kerberos认证的集群,需要拥有管理Kafka主题的权限。也可以通过KafkaUI修改Topic Configs。 安全模式下,KafkaUI对修改Topic Con