检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置Flink认证和加密 安全认证 Flink整个系统存在三种认证方式: 使用kerberos认证:Flink yarn client与Yarn Resource Manager、JobManager与Zookeeper、JobManager与HDFS、TaskManager与H
说明:HTML5是下一代的Web开发规范,为开发者提供了许多新的功能并扩展了标签。这些新的标签及功能增加了攻击面,存在被攻击的风险(例如跨域资源共享、客户端存储、WebWorker、WebRTC、WebSocket等)。 安全加固:添加“Access-Control-Allow-Origin”配置
k)以完全并行的方式来处理。框架会对map的输出先进行排序,然后把结果输入给reduce任务,最后返回给客户端。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。 MapReduce主要特点如下: 大规模并行计算 适用于大型数据集
k)以完全并行的方式来处理。框架会对map的输出先进行排序,然后把结果输入给reduce任务,最后返回给客户端。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。 MapReduce主要特点如下: 大规模并行计算 适用于大型数据集
失。 查看调测结果 Spark应用程序运行完成后,可通过如下方式查看应用程序的运行情况。 通过运行结果数据查看应用程序运行情况。 结果数据存储路径和格式已经由Spark应用程序指定,可通过指定文件获取。 登录Spark WebUI查看应用程序运行情况。 Spark主要有两个Web页面。
聚合函数 聚合函数对一组值进行运算,最终获得一个单值。 除count()、count_if()、max_by()、min_by()和approx_distinct()外,其他聚合函数都忽略空值,并在没有输入行或所有值都为空时返回空值。例如sum()返回null而不是零,并且avg
shuffle.service.enabled false true 调整Spark调度参数优化OBS场景下Spark调度时延 开启对于OBS存储,可以关闭Spark的本地性进行优化,尽可能提升Spark调度效率 配置项 集群默认值 调整后 --conf spark.locality
k)以完全并行的方式来处理。框架会对map的输出先进行排序,然后把结果输入给reduce任务,最后返回给客户端。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。 MapReduce主要特点如下: 大规模并行计算 适用于大型数据集
k)以完全并行的方式来处理。框架会对map的输出先进行排序,然后把结果输入给reduce任务,最后返回给客户端。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。 MapReduce主要特点如下: 大规模并行计算 适用于大型数据集
修改在Hue使用“Query Editors”的会话配置 在“Hive”页签,单击。 在“Files”的右侧单击 ,然后单击 指定该文件的存储目录。 可以单击 新增加一个文件资源。 在“Functions”的右侧单击 ,输入用户自定义的名称和函数的类名称。 可以单击 新增加一个自定义函数。
失。 查看调测结果 Spark应用程序运行完成后,可通过如下方式查看应用程序的运行情况。 通过运行结果数据查看应用程序运行情况。 结果数据存储路径和格式已经由Spark应用程序指定,可通过指定文件获取。 登录Spark WebUI查看应用程序运行情况。 Spark主要有两个Web页面。
算子操作方法示意 设置数据保存信息并运行作业 单击“下一步”,进入“输出设置”界面,在“存储类型”选择“HIVE”,设置数据保存方式。 表4 输出设置参数 参数名 说明 示例 输出目录 数据导入到Hive里存储的保存目录。 说明: 路径参数可以使用宏定义,具体请参考Loader算子配置项中使用宏定义。
HBase的“fs.defaultFS”配置参数需要与Yarn、HDFS的配置保持一致。 如果HBase数据存储在本地HDFS,支持将HBase元数据备份到OBS。如果HBase数据存储在OBS,则不支持数据备份。 如果数据要备份至OBS中,需要当前集群已对接OBS,并具有访问OBS的权限。
算子操作方法示意 设置数据保存信息并运行作业 单击“下一步”,进入“输出设置”界面,在“存储类型”选择“HIVE”,设置数据保存方式。 表4 输出设置参数 参数名 说明 示例 输出目录 数据导入到Hive里存储的保存目录。 说明: 路径参数可以使用宏定义,具体请参考Loader算子配置项中使用宏定义。
算子操作方法示意 设置数据保存信息并运行作业 单击“下一步”,进入“输出设置”界面,在“存储类型”选择“HIVE”,设置数据保存方式。 表4 输出设置参数 参数名 说明 示例 输出目录 数据导入到Hive里存储的保存目录。 说明: 路径参数可以使用宏定义,具体请参考配置项中使用宏定义。 /opt/tempfile
--spark-memory 12g 指定clustering的排序方式和排序列: 当前clustering支持linear、z-order、hilbert三种排序方式,可以通过option方式或者set方式来设置。 linear:普通排序,默认排序,适合排序一个字段, 或者多个低级字段。 z-o
开启了Ranger鉴权的集群的Hive表支持开启表的级联授权功能,极大地提升了鉴权易用性,只需在Ranger页面上对业务表进行一次授权,后台就会自动细粒度关联数据存储源的权限,不需要感知表的存储路径,无需进行二次授权。同时也补齐了基于存算分离授权功能的缺陷。详细操作请参见Hive表支持级联授权功能。 Hive使用场景及对应权限
算子操作方法示意 设置数据保存信息并运行作业 单击“下一步”,进入“输出设置”界面,在“存储类型”选择“HIVE”,设置数据保存方式。 表4 输出设置参数 参数名 说明 示例 输出目录 数据导入到Hive里存储的保存目录。 说明: 路径参数可以使用宏定义,具体请参考配置项中使用宏定义。 /opt/tempfile
}); // 检索名称为KEY_VALUE_STATE_STORE_NAME的key-value状态存储区,可用于记忆最近收到的输入记录等 this.kvStore = (KeyValueStore<String
设置Mapreduce任务日志清理任务的检查周期(秒)。设置为“-1”时检查周期为日志保留时间的十分之一。 86400 如果是任务日志将HDFS存储空间占用太多,主要修改“mapreduce.jobhistory.max-age-ms”和“yarn.log-aggregation.re