检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
但是有的时候,使用mapPartitions会出现OOM(内存溢出)的问题。因为单次函数调用就要处理掉一个partition所有的数据,如果内存不够,垃圾回收时是无法回收掉太多对象的,很可能出现OOM异常。所以使用这类操作时要慎重! 使用filter之后进行coalesce操作。 通常对一个RDD执行filter算子
network.max: 20g 基于序列化性能尽量使用POJO和Avro等简单的数据类型 使用API编写Flink程序时需要考虑Java对象的序列化,大多数情况下Flink都可以高效的处理序列化。SQL中无需考虑,SQL中数据都为ROW类型,都采用了Flink内置的序列化器,能很高效的进行序列化。
录中可保留的备份文件集数量。 “LocalHDFS”:表示将备份文件保存在当前集群的HDFS目录。选择此参数值,还需要配置以下参数: “目的端路径”:填写备份文件在HDFS中保存的目录。不支持填写HDFS中的隐藏目录,例如快照或回收站目录;也不支持默认的系统目录。 “最大备份数”
查看Flink应用调测结果 操作场景 Flink应用程序运行完成后,您可以查看运行结果数据,也可以通过Flink WebUI查看应用程序运行情况。 操作步骤 查看Flink应用运行结果数据。 当用户查看执行结果时,需要在Flink的web页面上查看Task Manager的Stdout日志。
准备依赖的Jar包和配置文件。 在Linux环境新建目录,例如“/opt/test”,并创建子目录“lib”和“conf”。将样例工程中“lib”的Jar包导出,导出步骤请参考2,以及1导出的Jar包,上传到Linux的“lib”目录。将样例工程中“conf”的配置文件上传到Linux中“conf”目录。
{ClassPath}表示工程jar包的存放路径,详细路径由用户指定,可参考在Linux环境中调测Spark应用章节中导出jar包的操作步骤。 命令举例: java -cp /opt/client/Spark2x/spark/conf:/opt/StructuredStreamingADScalaExample-1
SE、SELECT表/视图。 HetuEngine支持的GBase数据源的Schema和Table名称不区分大小写。 配置GBase数据源步骤 安装集群客户端 安装包含HetuEngine服务的集群客户端,例如安装目录为“/opt/hadoopclient”。 准备GBase驱动
sssd服务未启动或启动错误。 网络故障,无法访问Ldap服务器。 Name Service服务异常。 OS执行命令慢导致无法查询用户。 处理步骤 检查sssd服务是否启动或启动错误。 在FusionInsight Manager界面,选择“运维 > 告警 > 告警”。记录该告警定位
Manager系统,选择“集群 > 待操作集群的名称 > 服务 > Loader > 更多 > 重启服务”,输入管理员密码重启Loader服务。 操作步骤 设置作业基本信息 登录“Loader WebUI”界面。 登录FusionInsight Manager系统,具体请参见访问FusionInsight
x之前版本。 前提条件 已创建包含Flume组件的流集群。 日志主机需要与MRS集群在相同的VPC和子网。 已获取日志主机的登录方式。 操作步骤 根据前提条件,创建一个满足要求的弹性云服务器。 登录集群详情页面,选择“组件管理”。 若集群详情页面没有“组件管理”页签,请先完成IAM
登录FusionInsight Manager系统,选择“集群 > 服务 > Loader > 更多 > 重启服务”,输入管理员密码重启Loader服务。 操作步骤 设置作业基本信息 登录“Loader WebUI”界面。 登录FusionInsight Manager系统,具体请参见访问FusionInsight
已成功安装集群,包含HDFS、Kafka及Flume服务。 已创建用户flume_hdfs并授权验证日志时操作的HDFS目录和数据。 确保集群网络环境安全。 操作步骤 在FusionInsight Manager管理界面,选择“系统 > 权限 > 用户”,选择“更多 > 下载认证凭据”下载用户flume
参考添加HetuEngine的Ranger访问权限策略。 已安装集群客户端,例如安装目录为“/opt/client”。 访问Hive数据源步骤 创建并启动HetuEngine计算实例。 使用HetuEngine管理员用户登录FusionInsight Manager,选择“集群 >
准备好业务用户hdfs。 更改DataNode单个实例的存储目录时,保持活动的DataNode实例数必须大于“dfs.replication”的值。 操作步骤 检查环境 以root用户登录安装HDFS客户端的服务器,执行以下命令配置环境变量。 source HDFS客户端安装目录/bigdata_env
已成功安装集群、HDFS及Flume服务、Flume客户端。 已创建用户flume_hdfs并授权验证日志时操作的HDFS目录和数据。 操作步骤 分别生成Flume角色服务端和客户端的证书和信任列表。 以omm用户登录Flume服务端所在节点。进入“${BIGDATA_HOME}/
Kerberos 提供安全认证的服务。 KerberosAdmin 提供认证用户管理的进程。 KerberosServer 提供认证票据分发的进程。 步骤原理说明: 应用客户端(Application Client)可以是集群内某个服务,也可以是客户二次开发的一个应用程序,应用程序可以向应用服务提交任务或者作业。
参考创建FlinkServer权限角色创建一个具有FlinkServer管理员权限的用户用于访问Flink WebUI,如:flink_admin。 创建作业步骤 使用flink_admin登录Manager,选择“集群 > 服务 > Flink”,在“Flink WebUI”右侧,单击链接,访问Flink的WebUI。
提升HBase实时读数据效率 操作场景 需要读取HBase数据场景。 前提条件 调用HBase的get或scan接口,从HBase中实时读取数据。 操作步骤 读数据服务端调优 参数入口:登录FusionInsight Manager,选择“集群 > 服务 > HBase > 配置 > 全部配置
Manager系统,选择“集群 > 待操作集群的名称 > 服务 > Loader > 更多 > 重启服务”,输入管理员密码重启Loader服务。 操作步骤 设置作业基本信息 登录“Loader WebUI”界面。 登录FusionInsight Manager系统,具体请参见访问FusionInsight
准备好业务用户hdfs。 更改DataNode单个实例的存储目录时,保持活动的DataNode实例数必须大于“dfs.replication”的值。 操作步骤 检查环境 以root用户登录安装HDFS客户端的服务器,执行以下命令配置环境变量。 source HDFS客户端安装目录/bigdata_env