检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark应用开发简介 Spark简介 Spark是分布式批处理框架,提供分析挖掘与迭代式内存计算能力,支持多种语言(Scala/Java/Python)的应用开发。 适用以下场景: 数据处理(Data Processing):可以用来快速处理数据,兼具容错性和可扩展性。 迭代计算
Spark应用开发简介 Spark简介 Spark是分布式批处理框架,提供分析挖掘与迭代式内存计算能力,支持多种语言(Scala/Java/Python)的应用开发。 适用以下场景: 数据处理(Data Processing):可以用来快速处理数据,兼具容错性和可扩展性。 迭代计算
通过Flink作业处理OBS数据 应用场景 MRS支持在大数据存储容量大、计算资源需要弹性扩展的场景下,用户将数据存储在OBS服务中,使用MRS集群仅做数据计算处理的存算分离模式。 本文将向您介绍如何在MRS集群中运行Flink作业来处理OBS中存储的数据。 方案架构 Flink是一个批处理和流处理结合的统一计算框架
EL操作转换:计算器,可以对字段值进行运算,目前支持的算子有:md5sum、sha1sum、sha256sum和sha512sum等。 字符串大小写转换:字符串转换步骤,配置已生成的字段通过大小写变换,转换出新的字段。
Spark应用开发简介 Spark简介 Spark是分布式批处理框架,提供分析挖掘与迭代式内存计算能力,支持多种语言(Scala/Java/Python)的应用开发。 适用以下场景: 数据处理(Data Processing):可以用来快速处理数据,兼具容错性和可扩展性。 迭代计算
快速开发Spark应用 Spark是分布式批处理框架,提供分析挖掘与迭代式内存计算能力,支持多种语言的应用开发。 通常适用以下场景: 数据处理(Data Processing):可以用来快速处理数据,兼具容错性和可扩展性。 迭代计算(Iterative Computation):支持迭代计算
Hue WebUI中Oozie编辑器的时区设置问题 问题 在Hue设置Oozie工作流调度器的时区时,部分时区设置会导致任务提交失败。 回答 部分时区存在适配问题,建议时区选择“Asia/Shanghai”,如图1所示。 图1 时区选择 支持的时区可以参考Oozie WebUI页面
Capacity调度器模式下清除租户非关联队列 操作场景 在Yarn Capacity Scheduler模式下,删除租户的时候,只是把租户队列的容量设置为0,并且把状态设为“STOPPED”,但是队列在Yarn的服务里面仍然残留。由于Yarn的机制,无法动态删除队列,管理员可以执行命令手动清除残留的队列
sftp-connector连接器相关作业运行失败 问题 使用sftp-connector连接器相关作业运行失败,出现如下类似报错:“获取Sftp通道失败。xxx (原因是: failed to send channel request)”。 SFTP服务出现如下报错:“subsystem
使用Loader从SFTP服务器导入数据到HBase 操作场景 该任务指导用户使用Loader将数据从SFTP服务器导入到HBase。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的HBase表或phoenix表。 获取SFTP
使用Loader从FTP服务器导入数据到HBase 操作场景 该任务指导用户使用Loader将数据从FTP服务器导入到HBase。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 获取FTP服务器使用的用户和密码,且该用户具备FTP服务器上源文件的读取权限。如果源文件在导入后文件名要增加后缀
使用Loader从HBase导出数据到SFTP服务器 操作场景 该任务指导用户使用Loader将数据从HBase导出到SFTP服务器。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的HBase表或phoenix表。 获取SFTP
Hue WebUI中Oozie编辑器的时区设置问题 问题 在Hue设置Oozie工作流调度器的时区时,部分时区设置会导致任务提交失败。 回答 部分时区存在适配问题,建议时区选择“Asia/Shanghai”,如图1所示。 图1 时区选择 支持的时区可以参考Oozie WebUI页面
Hive常用配置参数 Hive是建立在Hadoop上的数据仓库框架,提供大数据平台批处理计算能力,能够对结构化/半结构化数据进行批量分析汇总完成数据计算。 本章节主要介绍Hive常用参数。 操作步骤 登录FusionInsight Manager,选择“集群 > 服务 > Hive
典型场景:从SFTP服务器导入数据到HDFS/OBS 操作场景 该任务指导用户使用Loader将数据从SFTP服务器导入到HDFS/OBS。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的HDFS/OBS目录和数据。 获取SFTP
使用Loader从SFTP服务器导入数据到Hive 操作场景 该任务指导用户使用Loader将数据从SFTP服务器导入到Hive。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业中指定的Hive表的权限。 获取SFTP服务器使用的用户和密码
使用Loader从Hive导出数据到SFTP服务器 操作场景 该任务指导用户使用Loader将数据从Hive导出到SFTP服务器。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业中指定的Hive表的权限。 获取SFTP服务器使用的用户和密码
使用MRS Hive表对接OBS文件系统 应用场景 MRS支持用户将数据存储在OBS服务中,使用MRS集群仅作数据计算处理的存算分离场景。 用户通过IAM服务的“委托”机制进行简单配置,即可实现OBS的访问。 方案架构 Hive是建立在Hadoop上的数据仓库框架,提供大数据平台批处理计算能力
典型场景:从HDFS/OBS导出数据到SFTP服务器 操作场景 该任务指导用户使用Loader将数据从HDFS/OBS导出到SFTP服务器。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的HDFS/OBS目录和数据。 获取SFTP
使用IE浏览器在Hue中执行HQL失败 问题 遇到使用IE浏览器在Hue中访问Hive Editor并执行所有HQL失败,界面提示如下报错,如何解决并正常执行HQL? There was an error with your query. 回答 IE浏览器存在功能问题,不支持在307