检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本工程应用程序以数据源的方式去使用HBase,将数据以Avro格式存储在HBase中,并从中读取数据以及对读取的数据进行过滤等操作。
long count) { this.count = count; } // 获取用户自定义状态 public long geState() { return this.count; } } 带checkpoint的数据源
数据源为HDFS,指定目录时需要此目录已经存在,SparkSQL用户是目录属主,且用户对此目录及其子目录拥有“读”、“写”和“执行”权限,并且其上层的每一级目录拥有“读”和“执行”权限。
long count) { this.count = count; } // 获取用户自定义状态 public long geState() { return this.count; } } 带checkpoint的数据源
数据源为HDFS,指定目录时需要此目录已经存在,SparkSQL用户是目录属主,且用户对此目录及其子目录拥有“读”、“写”和“执行”权限,并且其上层的每一级目录拥有“读”和“执行”权限。
private var count = 0L // 设置用户自定义状态 def setState(s: Long) = count = s // 获取用户自定状态 def getState = count } 带checkpoint的数据源
Serializable{ private var count = 0L // 设置用户自定义状态 def setState(s: Long) = count = s // 获取用户自定状态 def getState = count } 带checkpoint的数据源
适用以下场景: 源数据在Broker可以访问的存储系统中,如OBS。 数据量在几十到百GB级别。 支持导入CSV、Parquet、ORC、JSON格式的数据,默认支持导入CSV格式数据。 该章节操作适用于MRS 3.5.0及之后版本。
hdfs diskbalancer -plan <Hostname| IP Address> 此条命令可以根据传入的DataNode生成一个Json文件,该文件包含了数据移动的源磁盘、目标磁盘、待移动的块等信息。同时,该命令还支持指定一些其他网络带宽参数等。
hdfs diskbalancer -plan <Hostname| IP Address> 此条命令可以根据传入的DataNode生成一个Json文件,该文件包含了数据移动的源磁盘、目标磁盘、待移动的块等信息。同时,该命令还支持指定一些其他网络带宽参数等。
级联授权生成的HDFS存储源端的权限弱于HDFS Ranger策略的权限,即如果已经对表的HDFS存储源设置了HDFS Ranger权限,则级联权限将不会生效。
-fd:用于指定一个目录来存放导入失败的文件,如果没有指定该参数,失败的文件将会被保存到源数据的目录中,文件名为源文件名加上.failed后缀。例如: -fd ./failed/。 -aligned:是否使用aligned接口, 默认参数值为“false”。
流式集群:用于流式数据处理任务,对实时数据源进行快速分析,主要包含Kafka、Flume等流式数据处理组件。 混合集群:既可以用来做离线数据分析,也可以用来做流处理任务的集群。 自定义:提供丰富的组件搭配,可自行选择对应版本MRS集群所支持的所有组件。
xxx Datastore Type 上层源的类型,包括: MRS 3.2.0版本: opengauss ogg oracle drs-avro-oracle MRS 3.3.0及之后版本: drs-opengauss-json ogg-oracle-avro drs-oracle-json
BulkLoad支持的数据源格式为带分隔符的文本文件。 已安装客户端。例如安装目录为“/opt/hadoopclient”,以下操作的客户端目录只是举例,请根据实际安装目录修改。 若批量导入数据时创建二级索引,还需注意: 当将列的类型设置为string时,不能设置其长度。
BulkLoad支持的数据源格式为带分隔符的文本文件。 已安装客户端。例如安装目录为“/opt/hadoopclient”,以下操作的客户端目录只是举例,请根据实际安装目录修改。 若批量导入数据时创建二级索引,还需注意: 当将列的类型设置为string时,不能设置其长度。
hadoop fs -Dfs.obs.access.key=访问OBS的AK信息 -Dfs.obs.secret.key=访问OBS的SK信息 -copyToLocal 应用程序源路径 应用程序目的路径 例如: hadoop fs -Dfs.obs.access.key=XXXX
根据业务需要可修改外部数据源的部分参数。 指定参数值为“sftp”表示SFTP连接器。 在导入作业中,支持修改源文件的输入路径“-inputPath”、源文件的编码格式“-encodeType”和源文件导入成功后对输入文件增加的后缀值“-suffixName”。
流式集群:用于流式数据处理任务,对实时数据源进行快速分析,主要包含Kafka、Flume等流式数据处理组件。 混合集群:既可以用来做离线数据分析,也可以用来做流处理任务的集群。 自定义:提供丰富的组件搭配,可自行选择对应版本MRS集群所支持的所有组件。
根据业务需要可修改外部数据源的部分参数。 指定参数值为“sftp”表示SFTP连接器。 在导入作业中,支持修改源文件的输入路径“-inputPath”、源文件的编码格式“-encodeType”和源文件导入成功后对输入文件增加的后缀值“-suffixName”。