检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
初始化HDFS 功能简介 在使用HDFS提供的API之前,需要先进行HDFS初始化操作。过程为: 加载HDFS服务配置文件,并进行kerberos安全认证。 认证通过后,实例化Filesystem。 使用HDFS的API。 此处kerberos安全认证需要使用到的keytab文件,请提前准备。
写入OpenTSDB数据 功能简介 使用OpenTSDB的接口(/api/put)写入数据。 函数genWeatherData()模拟生成的气象数据,函数putData()发送气象数据到OpenTSDB服务端。 样例代码 以下代码片段在com.huawei.bigdata.opentsdb
JobConf:MapReduce作业的配置类,是用户向Hadoop提交作业的主要配置接口。 表1 类org.apache.hadoop.mapreduce.Job的常用接口 功能 说明 Job(Configuration conf, String jobName),Job(Configuration conf) 新
CREATE TABLE 命令功能 CREATE TABLE命令通过指定带有表属性的字段列表来创建CarbonData Table。 命令格式 CREATE TABLE [IF NOT EXISTS] [db_name.]table_name [(col_name data_type
er实例,直接部署在集群内部。而客户端部署更灵活,可以部署在集群内部,也可以部署在集群外。它们之间没有必然联系,都可以独立工作,并且提供的功能是一样的。 Flume客户端需要单独安装,支持将数据直接导到集群中的HDFS和Kafka等组件上,也可以结合Flume服务端一起使用。 使用流程
Manager管理,则必须配置系统互信,请参见配置MRS集群间互信。如果主集群部署为普通模式,则不需要配置互信。 主备集群必须已配置跨集群拷贝,请参见启用MRS集群间拷贝功能。 主备集群上的时间必须一致,而且主备集群上的NTP服务必须使用同一个时间源。 检查备集群HDFS是否有充足的空间,备份文件保存的目录建议使用用户自定义的目录。
S/OBS输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;,中的任意字符。 如果设置的作业需要使用指定YARN队列功能,该用户需要已授权有相关YARN队列的权限。 设置任务的用户需要获取该任务的执行权限,并获取该任务对应的连接的使用权限。 操作步骤 设置作业基本信息
er实例,直接部署在集群内部。而客户端部署更灵活,可以部署在集群内部,也可以部署在集群外。它们之间没有必然联系,都可以独立工作,并且提供的功能是一样的。 Flume客户端需要单独安装,支持将数据直接导到集群中的HDFS和Kafka等组件上,也可以结合Flume服务端一起使用。 使用流程
JobConf:MapReduce作业的配置类,是用户向Hadoop提交作业的主要配置接口。 表1 类org.apache.hadoop.mapreduce.Job的常用接口 功能 说明 Job(Configuration conf, String jobName),Job(Configuration conf) 新
JobConf:MapReduce作业的配置类,是用户向Hadoop提交作业的主要配置接口。 表1 类org.apache.hadoop.mapreduce.Job的常用接口 功能 说明 Job(Configuration conf, String jobName),Job(Configuration conf) 新
若设置为true,可能会造成数据丢失。 auto.leader.rebalance.enable true 是否使用Leader自动均衡功能。 如果设为true,Controller会周期性的为所有节点的每个分区均衡Leader,将Leader分配给更优先的副本。 acks 1
保HDFS输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;,中的任意字符。 如果设置的作业需要使用指定YARN队列功能,该用户需要已授权有相关YARN队列的权限。 设置任务的用户需要获取该任务的执行权限,并获取该任务对应的连接的使用权限。 操作步骤 设置作业基本信息
S/OBS输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;,中的任意字符。 如果设置的作业需要使用指定YARN队列功能,该用户需要已授权有相关YARN队列的权限。 设置任务的用户需要获取该任务的执行权限,并获取该任务对应的连接的使用权限。 操作步骤 设置作业基本信息
“/var/log/Bigdata/audit/hive/webhcat”(审计日志)。 日志归档规则:Hive的日志启动了自动压缩归档功能,缺省情况下,当日志大小超过20MB的时候(此日志文件大小可进行配置),会自动压缩,压缩后的日志文件名规则为:“<原有日志名>-<yyyy-mm-dd_hh-mm-ss>
MapReduce统计样例代码 功能介绍 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 主要分为三个部分: 从原文件中筛选女性网民上网时间数据信息,通过类CollectionMapper继承Mapper抽象类实现。 汇总每个女性上网时间,并输出时间大于两个小时的
MapReduce统计样例代码 功能介绍 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 主要分为三个部分: 从原文件中筛选女性网民上网时间数据信息,通过类CollectionMapper继承Mapper抽象类实现。 汇总每个女性上网时间,并输出时间大于两个小时的
“/var/log/Bigdata/audit/hive/webhcat”(审计日志)。 日志归档规则:Hive的日志启动了自动压缩归档功能,缺省情况下,当日志大小超过20MB的时候(此日志文件大小可进行配置),会自动压缩,压缩后的日志文件名规则为:“<原有日志名>-<yyyy-mm-dd_hh-mm-ss>
MirrorMaker:“/var/log/Bigdata/kafka/mirrormaker”(运行日志) 日志归档规则:Kafka的日志启动了自动压缩归档功能,默认情况下,当日志大小超过30MB的时候,会自动压缩,压缩后的日志文件名规则为:“<原有日志名>-<yyyy-mm-dd_hh-mm-ss>
不支持对存储源为OBS的表级联授权后直接进行alter操作,需要给对应用户组额外授予OBS表路径的父目录的“Read”和“Write”权限才能使用alter功能。 父主题: MRS集群服务对接OBS示例
Manager管理,则必须配置系统互信,请参见配置MRS集群间互信。如果主集群部署为普通模式,则不需要配置互信。 主备集群必须已配置跨集群拷贝,请参见启用MRS集群间拷贝功能。 主备集群上的时间必须一致,而且主备集群上的NTP服务必须使用同一个时间源。 如果要备份到HDFS,需要安装HDFS,Yarn服务。 根