检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
k)以完全并行的方式来处理。框架会对map的输出先进行排序,然后把结果输入给reduce任务,最后返回给客户端。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。 MapReduce主要特点如下: 大规模并行计算 适用于大型数据集
失。 查看调测结果 Spark应用程序运行完成后,可通过如下方式查看应用程序的运行情况。 通过运行结果数据查看应用程序运行情况。 结果数据存储路径和格式已经由Spark应用程序指定,可通过指定文件获取。 登录Spark WebUI查看应用程序运行情况。 Spark主要有两个Web页面。
聚合函数 聚合函数对一组值进行运算,最终获得一个单值。 除count()、count_if()、max_by()、min_by()和approx_distinct()外,其他聚合函数都忽略空值,并在没有输入行或所有值都为空时返回空值。例如sum()返回null而不是零,并且avg
算子操作方法示意 设置数据保存信息并运行作业 单击“下一步”,进入“输出设置”界面,在“存储类型”选择“HIVE”,设置数据保存方式。 表4 输出设置参数 参数名 说明 示例 输出目录 数据导入到Hive里存储的保存目录。 说明: 路径参数可以使用宏定义,具体请参考Loader算子配置项中使用宏定义。
HBase的“fs.defaultFS”配置参数需要与Yarn、HDFS的配置保持一致。 如果HBase数据存储在本地HDFS,支持将HBase元数据备份到OBS。如果HBase数据存储在OBS,则不支持数据备份。 如果数据要备份至OBS中,需要当前集群已对接OBS,并具有访问OBS的权限。
k)以完全并行的方式来处理。框架会对map的输出先进行排序,然后把结果输入给reduce任务,最后返回给客户端。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。 MapReduce主要特点如下: 大规模并行计算 适用于大型数据集
--spark-memory 12g 指定clustering的排序方式和排序列: 当前clustering支持linear、z-order、hilbert三种排序方式,可以通过option方式或者set方式来设置。 linear:普通排序,默认排序,适合排序一个字段, 或者多个低级字段。 z-o
k)以完全并行的方式来处理。框架会对map的输出先进行排序,然后把结果输入给reduce任务,最后返回给客户端。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。 MapReduce主要特点如下: 大规模并行计算 适用于大型数据集
k)以完全并行的方式来处理。框架会对map的输出先进行排序,然后把结果输入给reduce任务,最后返回给客户端。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。 MapReduce主要特点如下: 大规模并行计算 适用于大型数据集
失。 查看调测结果 Spark应用程序运行完成后,可通过如下方式查看应用程序的运行情况。 通过运行结果数据查看应用程序运行情况。 结果数据存储路径和格式已经由Spark应用程序指定,可通过指定文件获取。 登录Spark WebUI查看应用程序运行情况。 Spark主要有两个Web页面。
shuffle.service.enabled false true 调整Spark调度参数优化OBS场景下Spark调度时延 开启对于OBS存储,可以关闭Spark的本地性进行优化,尽可能提升Spark调度效率 配置项 集群默认值 调整后 --conf spark.locality
修改在Hue使用“Query Editors”的会话配置 在“Hive”页签,单击。 在“Files”的右侧单击 ,然后单击 指定该文件的存储目录。 可以单击 新增加一个文件资源。 在“Functions”的右侧单击 ,输入用户自定义的名称和函数的类名称。 可以单击 新增加一个自定义函数。
算子操作方法示意 设置数据保存信息并运行作业 单击“下一步”,进入“输出设置”界面,在“存储类型”选择“HIVE”,设置数据保存方式。 表4 输出设置参数 参数名 说明 示例 输出目录 数据导入到Hive里存储的保存目录。 说明: 路径参数可以使用宏定义,具体请参考Loader算子配置项中使用宏定义。
算子操作方法示意 设置数据保存信息并运行作业 单击“下一步”,进入“输出设置”界面,在“存储类型”选择“HIVE”,设置数据保存方式。 表4 输出设置参数 参数名 说明 示例 输出目录 数据导入到Hive里存储的保存目录。 说明: 路径参数可以使用宏定义,具体请参考配置项中使用宏定义。 /opt/tempfile
算子操作方法示意 设置数据保存信息并运行作业 单击“下一步”,进入“输出设置”界面,在“存储类型”选择“HIVE”,设置数据保存方式。 表4 输出设置参数 参数名 说明 示例 输出目录 数据导入到Hive里存储的保存目录。 说明: 路径参数可以使用宏定义,具体请参考配置项中使用宏定义。 /opt/tempfile
开启了Ranger鉴权的集群的Hive表支持开启表的级联授权功能,极大地提升了鉴权易用性,只需在Ranger页面上对业务表进行一次授权,后台就会自动细粒度关联数据存储源的权限,不需要感知表的存储路径,无需进行二次授权。同时也补齐了基于存算分离授权功能的缺陷。详细操作请参见Hive表支持级联授权功能。 Hive使用场景及对应权限
}); // 检索名称为KEY_VALUE_STATE_STORE_NAME的key-value状态存储区,可用于记忆最近收到的输入记录等 this.kvStore = (KeyValueStore<String
设置数据保存信息并运行作业 单击“下一步”,进入“输出设置”界面,根据实际场景在“存储类型”选择“HBASE_BULKLOAD”或“HBASE_PUTLIST”,设置数据保存方式。 表4 输出设置参数 存储类型 适用场景 参数名 说明 示例 HBASE_BULKLOAD 数据量大 HBase实例
设置数据保存信息并运行作业 单击“下一步”,进入“输出设置”界面,根据实际场景在“存储类型”选择“HBASE_BULKLOAD”或“HBASE_PUTLIST”,设置数据保存方式。 表4 输出设置参数 存储类型 适用场景 参数名 说明 示例 HBASE_BULKLOAD 数据量大 HBase实例
单击“创建Catalog”,配置以下参数后,单击“提交”。 Catalog名称:hive(固定名称,不可自定义) 选择位置:单击“”选择Catalog对应的OBS存储路径,例如选择“obs://lakeformation-test/hive”(需提前创建),单击“确定”。 其他参数根据实际需要进行配置。