检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
编译并调测Flink应用 操作场景 在程序代码完成开发后,编译jar包并上传至Linux客户端环境中运行应用。使用Scala或Java语言开发的应用程序在Flink客户端的运行步骤是相同的。 基于YARN集群的Flink应用程序不支持在Windows环境下运行,只支持在Linux环境下运行
建立Hive表分区提升查询效率 操作场景 Hive在做Select查询时,一般会扫描整个表内容,会消耗较多时间去扫描不关注的数据。此时,可根据业务需求及其查询维度,建立合理的表分区,从而提高查询效率。 操作步骤 MRS 3.x之前版本: 登录MRS控制台,在左侧导航栏选择“现有集群
Hive输入 概述 “Hive输入”算子,将Hive表的指定列转换成同等数量的输入字段。 输入与输出 输入:Hive表列 输出:字段 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 Hive数据库 Hive的数据库名称。 String 否 default Hive
Spark输入 概述 “Spark输入”算子,将SparkSQL表的指定列转换成同等数量的输入字段。 输入与输出 输入:SparkSQL表列 输出:字段 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 Spark数据库 SparkSQL的数据库名称。 String
如何使用IDEA远程调试业务 问题 使用Storm客户端提交了业务之后,如何使用IDEA远程调试业务? 回答 以调试WordCount程序为例,演示如何进行IDEA的远程调试: 登录FusionInsight Manager系统,选择“集群 > 待操作集群的名称 > 服务 > Storm
执行load data inpath命令报错 问题现象 执行load data inpath报如下错误: 错误1: HiveAccessControlException Permission denied. Principal [name=user1, type=USER] does
同步MRS集群配置 某个新的配置需要同时下发到集群所有服务,或修改某项配置后导致多个不同服务的“配置状态”为“配置过期”或“失败”时,表示这些服务的配置参数值未同步且未生效,集群管理员可以对集群执行同步配置功能,并在同步配置后重启相关服务实例,使所有服务启用新的配置参数。 前提条件
调整Hudi数据源性能 本章节适用于MRS 3.3.1及以后版本。 HetuEngine具备高速访问Hive、Hudi等数据源的能力。对于Hudi数据源调优,可以分为对Hudi表本身和对集群环境的调优。 Hudi表调优 可参考如下建议优化表和数据设计: 建表时尽量按照频繁使用的过滤条件字段进行分区
配置ClickHouse对接HDFS源文件(MRS 3.2.0-LTS) 本章节仅适用于MRS 3.2.0-LTS版本。 操作场景 本章节主要介绍使用ClickHouse对接HDFS组件进行文件读写。 前提条件 已安装ClickHouse客户端,例如客户端安装目录为“/opt/client
Flink DataStream样例程序开发思路 场景说明 假定用户有某个网站周末网民网购停留时间的日志文本,基于某些业务要求,要求开发Flink的DataStream应用程序实现如下功能: DataStream应用程序可以在Windows环境和Linux环境中运行。 实时统计总计网购时间超过
Flink DataStream样例程序开发思路 场景说明 假定用户有某个网站周末网民网购停留时间的日志文本,基于某些业务要求,要求开发Flink的DataStream应用程序实现如下功能: DataStream应用程序可以在Windows环境和Linux环境中运行。 实时统计总计网购时间超过
如何使用IDEA远程调试业务 问题 使用Storm客户端提交了业务之后,如何使用IDEA远程调试业务? 回答 以调试WordCount程序为例,演示如何进行IDEA的远程调试: 登录FusionInsight Manager系统,选择“集群 > 待操作集群的名称 > 服务 > Storm
Flink DataStream样例程序开发思路 场景说明 假定用户有某个网站周末网民网购停留时间的日志文本,基于某些业务要求,要求开发Flink的DataStream应用程序实现如下功能: DataStream应用程序可以在Windows环境和Linux环境中运行。 实时统计总计网购时间超过
Hive输入 概述 “Hive输入”算子,将Hive表的指定列转换成同等数量的输入字段。 输入与输出 输入:Hive表列 输出:字段 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 Hive数据库 Hive的数据库名称。 String 否 default Hive
Spark输入 概述 “Spark输入”算子,将SparkSQL表的指定列转换成同等数量的输入字段。 输入与输出 输入:SparkSQL表列 输出:字段 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 Spark数据库 SparkSQL的数据库名称。 String
访问Hue WebUI界面 操作场景 MRS集群安装Hue组件后,用户可以通过Hue的WebUI,在图形化界面使用Hadoop生态相关组件。 该任务指导用户在MRS集群中打开Hue的WebUI。 Internet Explorer浏览器可能存在兼容性问题,建议更换兼容的浏览器访问Hue
启用集群间拷贝功能备份集群数据 操作场景 当用户需要将保存在HDFS中的数据从当前集群备份到另外一个集群时,需要使用DistCp工具。DistCp工具依赖于集群间复制功能,该功能默认未启用。两个集群都需要配置。 该任务指导MRS集群管理员在MRS修改参数以启用集群间复制功能。 对系统的影响
Flink DataStream样例程序开发思路 场景说明 假定用户有某个网站周末网民网购停留时间的日志文本,基于某些业务要求,要求开发Flink的DataStream应用程序实现如下功能: DataStream应用程序可以在Windows环境和Linux环境中运行。 实时统计总计网购时间超过
MRS 1.7.1.5补丁说明 补丁基本信息 表1 补丁基本信息 补丁号 MRS 1.7.1.5 发布时间 2018-11-12 解决的问题 MRS Manager MRS Manager UI界面排版优化。 MRS Manager操作及显示易用性优化。 MRS Manager增加大数据服务滚动重启能力
配置HDFS多路读 该章节仅适用于MRS 3.3.1及之后版本。 操作场景 在传统的HDFS中,当客户端请求读取数据时,它会与NameNode交互以确定数据块所在的DataNodes,并选择其中一个进行连接和数据传输。如果所选DataNode的响应速度较慢或者发生故障,客户端必须等待一段时间后才会尝试从其他副本中获取数据