检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
设置数据源信息 单击“下一步”,进入“输入设置”界面,设置数据源信息。 表1 输入设置参数 参数名 说明 示例 输入路径 HDFS/OBS中源文件的输入路径。 说明: 路径参数可以使用宏定义,具体请参考Loader算子配置项中使用宏定义。
设置数据源信息 单击“下一步”,进入“输入设置”界面,设置数据源信息。 表1 输入设置参数 参数名 说明 示例 输入路径 HDFS中源文件的输入路径。 说明: 路径参数可以使用宏定义,具体请参考Loader算子配置项中使用宏定义。
对于数据从集群导出去的场景来说,就是将数据写入到外部数据源。
设置数据源信息 单击“下一步”,进入“输入设置”界面,设置数据源信息。 表2 输入设置参数 参数名 说明 示例 输入路径 FTP服务器中源文件的输入路径,如果连接器配置多个地址此处可对应使用“;”分隔多个输入路径,数量需要与连接器中服务器的数量一致。
设置数据源信息 单击“下一步”,进入“输入设置”界面,在“源文件类型”中选择“HDFS”,设置数据源信息。 表2 数据来源配置参数 参数名 解释说明 示例 输入目录 从HDFS/OBS导出时的输入路径。 说明: 路径参数可以使用宏定义,具体请参考配置项中使用宏定义。
流式处理(Streaming Processing):支持秒级延迟的流式处理,可支持多种外部数据源。 查询分析(Query Analysis):支持标准SQL查询分析,同时提供DSL(DataFrame), 并支持多种外部输入。 Apache Spark部件架构如图1所示。
表1 使用MRS Kafka同步数据的CDL任务 数据源 目的端 描述 MySQL Hudi 该任务支持从MySQL同步数据到Hudi。 Kafka 该任务支持从MySQL同步数据到Kafka。 PgSQL Hudi 该任务支持从PgSQL同步数据到Hudi。
设置数据源信息 单击“下一步”,进入“输入设置”界面,设置数据源信息。 表2 输入设置参数 参数名 说明 示例 输入路径 SFTP服务器中源文件的输入路径,如果连接器配置多个地址此处可对应使用“;”分隔多个输入路径,数量需要与连接器中服务器的数量一致。
设置数据源信息 单击“下一步”,进入“输入设置”界面,设置数据源信息。 表2 输入设置参数 参数名 说明 示例 输入路径 SFTP服务器中源文件的输入路径,如果连接器配置多个地址此处可对应使用“;”分隔多个输入路径,数量需要与连接器中服务器的数量一致。
设置数据源信息 单击“下一步”,进入“输入设置”界面,设置数据源信息。 表2 输入设置参数 参数名 说明 示例 输入路径 FTP服务器中源文件的输入路径,如果连接器配置多个地址此处可对应使用“;”分隔多个输入路径,数量需要与连接器中服务器的数量一致。
设置数据源信息 单击“下一步”,进入“输入设置”界面,在“源文件类型”中选择“HDFS”,设置数据源信息。 表2 数据来源配置参数 参数名 解释说明 示例 输入目录 从HDFS/OBS导出时的输入路径。
Java SparkOnHbaseScalaExample-HbaseSource Spark on HBase 程序-操作HBase数据源 Scala SparkOnHbasePythonExample-HbaseSource Spark on HBase 程序-操作HBase数据源
Java SparkOnHbaseScalaExample-HbaseSource Spark on HBase 程序-操作HBase数据源 Scala SparkOnHbasePythonExample-HbaseSource Spark on HBase 程序-操作HBase数据源
级联授权生成的HDFS/OBS存储源端的权限弱于HDFS Ranger策略的权限,即如果已经对表的HDFS存储源设置了HDFS Ranger权限,则级联权限将不会生效。
如果源字符在from字符串中不存在,则将复制源字符而不进行翻译。如果在from字符串中匹配字符的索引超出了to字符串的长度,则将从结果字符串中省略源字符。
切换成功后,单击节点名称,需要在节点的“弹性网卡”中重启“源/目的检查”。 将虚拟IP重新绑定到集群的Master节点上,操作如下: 登录MRS管理控制台,进入MRS集群,在“概览”页面单击“前往Manager”后的 , “访问方式”选择“专线访问”,记录集群浮动IP。
<name>dfs.blocksize</name> <value>134217728</value> 图1 某些组件或者业务程序写入的文件大小 distcp 从源集群读文件后写入新集群,默认是使用的MapReduce任务中的dfs.blocksize,默认128M。
执行环境为所有执行的算子、数据源、data sink定义了一个默认的并行度。 执行环境的默认并行度可以通过调用setParallelism()方法指定。
使用ANALYZE语句收集统计信息时,无法计算非HDFS数据源的表的文件大小。
设置数据源信息 单击“下一步”,进入“输入设置”界面,设置数据源信息。 表2 输入设置参数 参数名 说明 示例 输入路径 SFTP服务器中源文件的输入路径,如果连接器配置多个地址此处可对应使用“;”分隔多个输入路径,数量需要与连接器中服务器的数量一致。