检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
WebUI,然后选择“Utilities > Browse the file system”。 观察HDFS上“/flume/test”目录下是否有产生数据。 图4 查看HDFS目录和文件 父主题: 配置Flume非加密传输数据采集任务
"<>|;&,'`!{}[]$%+ 不能超过255个字节 默认取值: 不涉及 offset 否 String 参数解释: 分页参数,表示从该偏移量开始查询文件列表。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 1 limit 否 String 参数解释: 分页参数,列表当前分页的数量限制。
Flume日志介绍 日志描述 日志路径:Flume相关日志的默认存储路径为“/var/log/Bigdata/角色名”。 FlumeServer:“/var/log/Bigdata/flume/flume” FlumeClient:“/var/log/Bigdata/flume-client-n/flume”
ClickHouse日志介绍 日志描述 日志路径:ClickHouse相关日志的默认存储路径为“${BIGDATA_LOG_HOME}/clickhouse”。 日志归档规则:ClickHouse日志启动了自动压缩归档功能,缺省情况下,当日志大小超过100MB的时候,会自动压缩,
Hudi表分区设计规范 规则 分区键不可以被更新: Hudi具有主键唯一性机制,但在分区表的场景下通常只能保证分区内主键唯一,因此如果分区键的值发生变更后,会导致相同主键的行记录出现多条的情况。在以日期分区的场景,可采用数据的创建时间为分区字段,切记不要采用数据更新时间做分区。
ZooKeeper日志介绍 日志描述 日志存储路径:“/var/log/Bigdata/zookeeper/quorumpeer”(运行日志),“/var/log/Bigdata/audit/zookeeper/quorumpeer”(审计日志) 日志归档规则:ZooKeeper
Flume日志介绍 日志描述 日志路径:Flume相关日志的默认存储路径为“/var/log/Bigdata/角色名”。 FlumeServer:“/var/log/Bigdata/flume/flume” FlumeClient:“/var/log/Bigdata/flume-client-n/flume”
StormSubmitter.submitTopology(args[0], conf, builder.createTopology()); } 部署运行及结果查看 获取相关配置文件,获取方式如下。 安全模式:参见4获取keytab文件。 普通模式:无。 在Storm示例代码根目录执行如下命令打包:"mvn
0-SNAPSHOT.jar com.huawei.bigdata.HCatalogExample -libjars $LIB_JARS t1 t2 运行结果查看,运行后t2表数据如下所示: 0: jdbc:hive2://192.168.1.18:2181,192.168.1.> select *
0-SNAPSHOT.jar com.huawei.bigdata.HCatalogExample -libjars $LIB_JARS t1 t2 运行结果查看,运行后t2表数据如下所示: 0: jdbc:hive2://192.168.1.18:2181,192.168.1.> select *
WebUI,然后选择“Utilities > Browse the file system”。 观察HDFS上“/flume/test”目录下是否有产生数据。 图4 查看HDFS目录和文件 父主题: 配置Flume非加密传输数据采集任务
loader/hadoop.<系统域名> 说明: 用户可登录FusionInsight Manager,选择“系统 > 权限 > 域和互信”,查看“本端域”参数,即为当前系统域名。 client.keytab 使用keytab认证方式登录时,使用的keytab文件所在目录。 普通模式或者密码登录方式,则不需要设置该参数。
在“作业管理”的作业列表中,找到创建的作业名称,单击操作列的“启动”,等待作业启动。 观察数据传输是否生效,例如在Oracle数据库中对表进行插入数据操作,查看Hudi导入的文件内容。 父主题: 创建CDL作业
行完成。 步骤3:检查迁移后的文件信息 登录迁移目的端集群主管理节点。 在集群客户端内执行hdfs dfs -ls -h /user/命令查看迁移目的端集群中已迁移的文件。 (可选)如果源端集群中有新增数据需要定期将新增数据迁移至目的端集群,则配置定期任务增量迁移数据,直到所有业务迁移至目的端集群。
WebUI,然后选择“Utilities > Browse the file system”。 观察HDFS上“/flume/test”目录下是否有产生数据。 图4 查看HDFS目录和文件 父主题: 配置Flume非加密传输数据采集任务
loader/hadoop.<系统域名> 说明: 用户可登录FusionInsight Manager,选择“系统 > 权限 > 域和互信”,查看“本端域”参数,即为当前系统域名。 client.keytab 使用keytab认证方式登录时,使用的keytab文件所在目录。 普通模式或者密码登录方式,则不需要设置该参数。
在“作业管理”的作业列表中,找到创建的作业名称,单击操作列的“启动”,等待作业启动。 观察数据传输是否生效,例如在PgSQL数据库中对表进行插入数据操作,查看Hudi导入的文件内容。 父主题: 创建CDL作业
规划好新的目录路径,用于保存旧目录中的数据。 准备好MRS集群管理员用户admin。 操作步骤 检查环境。 登录Manager,选择“集群 > 待操作集群的名称 > 服务”查看Yarn的状态“运行状态”是否为“良好”。 是,执行1.c。 否,Yarn状态不健康,执行1.b。 修复Yarn异常,任务结束。 确定修改NodeManager的存储目录场景。
Shell的转义字符规则。 - job.jobId 需要执行数据备份的作业ID。 作业ID可通过登录Loader webUI在已创建的作业查看。 1 use.keytab 是否使用keytab方式登录。 true,表示使用keytab文件登录 false,表示使用密码登录。 true
运行SparkStreamingKafka样例工程时报“类不存在”问题 问题 通过spark-submit脚本提交KafkaWordCount(org.apache.spark.examples.streaming.KafkaWordCount)任务时,日志中报Kafka相关的类