检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Oozie日志介绍 日志描述 日志路径:Oozie相关日志的默认存储路径为: 运行日志:“/var/log/Bigdata/oozie”。 审计日志:“/var/log/Bigdata/audit/oozie”。 日志归档规则:Oozie的日志分三类:运行日志、 脚本日志和审计日志
Hudi表分区设计规范 规则 分区键不可以被更新: Hudi具有主键唯一性机制,但在分区表的场景下通常只能保证分区内主键唯一,因此如果分区键的值发生变更后,会导致相同主键的行记录出现多条的情况。在以日期分区的场景,可采用数据的创建时间为分区字段,切记不要采用数据更新时间做分区。 当指定
ZooKeeper日志介绍 日志描述 日志存储路径:“/var/log/Bigdata/zookeeper/quorumpeer”(运行日志),“/var/log/Bigdata/audit/zookeeper/quorumpeer”(审计日志) 日志归档规则:ZooKeeper的日志启动了自动压缩归档功能
Spark Core样例程序开发思路 场景说明 假定用户有某个周末网民网购停留时间的日志文本,基于某些业务要求,要求开发Spark应用程序实现如下功能: 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 周末两天的日志文件第一列为姓名,第二列为性别,第三列为本次停留时间
Spark SQL样例程序开发思路 场景说明 假定用户有某个周末网民网购停留时间的日志文本,基于某些业务要求,要求开发Spark应用程序实现如下功能: 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 周末两天的日志文件第一列为姓名,第二列为性别,第三列为本次停留时间
使用Spark2x实现车联网车主驾驶行为分析 应用场景 本实践基于华为云MapReduce服务所编写,用于指导您了解MRS的基本功能,利用MRS服务的Spark2x组件,对车主的驾驶行为进行分析统计,得到用户驾驶行为的分析结果。 原始数据为车主的驾驶行为信息,包括车主在日常的驾驶行为中
典型场景:从HDFS/OBS导出数据到SFTP服务器 操作场景 该任务指导用户使用Loader将数据从HDFS/OBS导出到SFTP服务器。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的HDFS/OBS目录和数据。 获取SFTP
使用Loader从HDFS/OBS导出数据到关系型数据库 操作场景 该任务指导用户使用Loader将数据从HDFS/OBS导出到关系型数据库。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的HDFS/OBS目录和数据。 获取关系型数据库使用的用户和密码
离线数据加载:通过Doris Catalog读取RDS-MySQL数据并写入Doris 应用场景 通过Doris创建Catalog成功读取RDS-MySQL数据并写入Doris,并按照Unique指定字段自动去重。 方案架构 离线数据可以从数据湖加载,也可以直接加载本地文件。从数据湖加载可以使用工具
Spark Core样例程序开发思路 场景说明 假定用户有某个周末网民网购停留时间的日志文本,基于某些业务要求,要求开发Spark应用程序实现如下功能: 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 周末两天的日志文件第一列为姓名,第二列为性别,第三列为本次停留时间
Flume日志介绍 日志描述 日志路径:Flume相关日志的默认存储路径为“/var/log/Bigdata/角色名”。 FlumeServer:“/var/log/Bigdata/flume/flume” FlumeClient:“/var/log/Bigdata/flume-client-n
数学函数和运算符 数学运算符 运算符 描述 + 加 - 减 * 乘 / 除 % 取余 数学函数 abs(x) → [same as input] 返回x的绝对值 SELECT abs(-17.4);-- 17.4 bin(bigint x) -> string 返回x的二进制格式
典型场景:从关系型数据库导入数据到HBase 操作场景 该任务指导用户使用Loader将数据从关系型数据库导入到HBase。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的HBase表或phoenix表。 获取关系型数据库使用的用户和密码
典型场景:从HDFS/OBS导出数据到关系型数据库 操作场景 该任务指导用户使用Loader将数据从HDFS/OBS导出到关系型数据库。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的HDFS/OBS目录和数据。 获取关系型数据库使用的用户和密码
使用Loader从关系型数据库导入数据到HBase 操作场景 该任务指导用户使用Loader将数据从关系型数据库导入到HBase。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的HBase表或phoenix表。 获取关系型数据库使用的用户和密码
Spark SQL样例程序开发思路 场景说明 假定用户有某个周末网民网购停留时间的日志文本,基于某些业务要求,要求开发Spark应用程序实现如下功能: 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 周末两天的日志文件第一列为姓名,第二列为性别,第三列为本次停留时间
Hue日志介绍 日志描述 日志路径:Hue相关日志的默认存储路径为“/var/log/Bigdata/hue”(运行日志),“/var/log/Bigdata/audit/hue”(审计日志)。 日志归档规则:Hue的日志启动了自动压缩归档功能,默认情况下,当“access.log
JobGateway日志介绍 日志描述 日志路径:JobGateway相关日志的存储路径为:“/var/log/Bigdata/job-gateway/”。 日志归档规则:JobGateway的运行日志启动了自动压缩归档功能,当日志大小超过20MB的时候(此日志文件大小可进行配置)
Doris建表规范 该章节主要介绍创建Doris表时需遵循的规则和建议。 Doris建表规则 在创建Doris表指定分桶buckets时,每个桶的数据大小应保持在100MB~3GB之间,单分区中最大分桶数量不超过5000。 表数据超过5亿条以上必须设置分区分桶策略。 表的分桶列不要设置太多
使用Loader从FTP服务器导入数据到HBase 操作场景 该任务指导用户使用Loader将数据从FTP服务器导入到HBase。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 获取FTP服务器使用的用户和密码,且该用户具备FTP服务器上源文件的读取权限。如果源文件在导入后文件名要增加后缀