检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
自动细粒度关联OBS对应存储目录的权限,无需二次授权,即用户只需在Ranger页面上对业务表进行一次授权,系统就会自动细粒度关联数据存储源的权限,不需要感知表的存储路径,无需进行二次授权。 Ranger页面OBS授权对象只能针对Manager中自定义的用户组,内置用户组不支持,
FS active namenode地址,例如:10.10.10.233:25000。 “source_ip:source_port ”为源集群的HDFS active namenode地址,例如:10.10.10.223:25000。 两个IP地址和端口都需要根据自身的集群实际情况修改。
只能由英文字母、数字以及“_”和“-”组成,且长度为[1-64]个字符。 默认取值: 不涉及 source_type 否 String 参数解释: 数据源类别。 约束限制: 不涉及 取值范围: RDS_POSTGRES:RDS服务PostgreSQL数据库 RDS_MYSQL:RDS服务MySQL数据库
OnHbaseJavaExample Spark on HBase场景的Java/Scala/Python示例程序。 本工程应用程序以数据源的方式去使用HBase,将数据以Avro格式存储在HBase中,并从中读取数据以及对读取的数据进行过滤等操作。 sparksecurity-
public long geState() { return this.count; } } 带checkpoint的数据源 source算子的代码,该段代码每发送10000条数据休息1秒钟,制作快照时将到目前为止已经发送的数据的条数保存在UDFState中;从快
中。 数据源为Linux本地磁盘,指定目录时需要此目录已经存在,系统用户“omm”对此目录以及此目录上层的每一级目录拥有“r”和“x”的权限。指定文件时需要此文件已经存在,“omm”对此文件拥有“r”的权限,同时对此文件上层的每一级目录拥有“r”和“x”的权限。 数据源为HDFS
public long geState() { return this.count; } } 带checkpoint的数据源 source算子的代码,该段代码每发送10000条数据休息1秒钟,制作快照时将到目前为止已经发送的数据的条数保存在UDFState中;从快
中。 数据源为Linux本地磁盘,指定目录时需要此目录已经存在,系统用户“omm”对此目录以及此目录上层的每一级目录拥有“r”和“x”的权限。指定文件时需要此文件已经存在,“omm”对此文件拥有“r”的权限,同时对此文件上层的每一级目录拥有“r”和“x”的权限。 数据源为HDFS
= count = s // 获取用户自定状态 def getState = count } 带checkpoint的数据源 source算子的代码,该段代码每发送10000条数据休息1秒钟,制作快照时将到目前为止已经发送的数据的条数保存在UDFState中;从快
Long) = count = s // 获取用户自定状态 def getState = count } 带checkpoint的数据源 source算子的代码,该段代码每发送10000条数据休息1秒钟,制作快照时将到目前为止已经发送的数据的条数保存在UDFState中;从快
Load方式,数据就不需要经过客户端,而由Doris直接读取导入。 用户需要通过MySQL协议创建Broker Load导入,并通过查看导入命令检查导入结果。适用以下场景: 源数据在Broker可以访问的存储系统中,如OBS。 数据量在几十到百GB级别。 支持导入CSV、Parquet、ORC、JSON格式的数据,默认支持导入CSV格式数据。
-plan <Hostname| IP Address> 此条命令可以根据传入的DataNode生成一个Json文件,该文件包含了数据移动的源磁盘、目标磁盘、待移动的块等信息。同时,该命令还支持指定一些其他网络带宽参数等。 hdfs diskbalancer -query <Hostname:$dfs
请根据业务需求合理选择需要的组件,部分类型集群创建后不支持添加服务。 - 元数据 是否使用外部数据源存储集群的Hive、Ranger元数据。 本地元数据: 元数据存储在集群本地。 外置数据连接:使用外部数据源元数据,若集群异常或删除时将不影响元数据,适用于存储计算分离的场景。 在创建MRS集群
-plan <Hostname| IP Address> 此条命令可以根据传入的DataNode生成一个Json文件,该文件包含了数据移动的源磁盘、目标磁盘、待移动的块等信息。同时,该命令还支持指定一些其他网络带宽参数等。 hdfs diskbalancer -query <Hostname:$dfs
不能生成HDFS存储源端的权限。 级联授权生成的HDFS存储源端的权限弱于HDFS Ranger策略的权限,即如果已经对表的HDFS存储源设置了HDFS Ranger权限,则级联权限将不会生效。 CDL业务用户权限配置 集群已启用Kerberos认证(安全模式)若需在对接OBS
{table} select {表字段} from {源表} where {时间字段}< toDate ({当前时间})。 内嵌表会丢失建表过程中的数据,也可以使用WHERE指定条件过滤掉全部历史数据,此时会建立一张空表,再将历史数据源表数据手动全量INSERT即可。 第三方引擎的表 退服目前不支持第三方引擎的表自动迁移。
量导人。例如: -f filename.csv。 -fd:用于指定一个目录来存放导入失败的文件,如果没有指定该参数,失败的文件将会被保存到源数据的目录中,文件名为源文件名加上.failed后缀。例如: -fd ./failed/。 -aligned:是否使用aligned接口, 默认参数值为“false”。例如:
adoop、Spark、HBase、Hive、Flink、Oozie、Tez等数据分析类组件。 流式集群:用于流式数据处理任务,对实时数据源进行快速分析,主要包含Kafka、Flume等流式数据处理组件。 混合集群:既可以用来做离线数据分析,也可以用来做流处理任务的集群。 自定义
jks”证书文件对应的密码。 说明: 仅加密协议为“SASL_SSL”和“SSL”支持该参数。 xxx Datastore Type 上层源的类型,包括: MRS 3.2.0版本: opengauss ogg oracle drs-avro-oracle MRS 3.3.0及之后版本:
大任务下MapReduce任务运行失败,请参考MapReduce任务运行失败,ApplicationMaster出现物理内存溢出异常进行处理。 BulkLoad支持的数据源格式为带分隔符的文本文件。 已安装客户端。例如安装目录为“/opt/hadoopclient”,以下操作的客户端目录只是举例,请根据实际安装目录修改。