检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如果MRS集群开启了Kerberos认证,创建Spark作业时需要将krb5.conf和user.keytab文件添加到作业的其他依赖文件中,未开启Kerberos认证该步骤忽略。如图1所示: 图1 添加依赖文件 在Spark作业编辑器中选择对应的Module模块并执行Spark作业。 控制台操作请
业。 general:通用队列类型,用于运行Flink、Spark Jar作业。 说明: 如果不指定类型,则默认为“sql”。 description 否 String 队列的描述信息。 cu_count 是 Integer 与队列绑定的最小计算单元个数。设置值当前只支持16,64,256。
单击查看增强型跨源连接详细信息。 支持查看以下信息: 是否支持IPv6:如果创建增强型跨源连接时您选择的子网是开启IPv6的,则您创建的增强型跨源连接也是支持IPv6的。 主机信息:访问MRS的HBase集群时需要配置实例的主机名(即域名)与主机对应的IP地址。详细信息请参考修改弹性资源池的主机信息。
"description": "Big 2-wheel scooter", "weight": 5.18 }, "after": { "id": 111, "name": "scooter", "description": "Big
retention.days”调整保留周期。保留周期外的多版本数据后续在执行insert overwrite或者truncate语句时会自动进行清理。在添加列或者修改分区表时,也可以设置表属性“dli.multi.version.retention.days”调整保留周期。 开启和关闭多版本功
\"bc764cd8ddf7a0cff126f51c16239658\",\n \"ship_strategy\" : \"FORWARD\",\n \"exchange\" : \"pipelined_bounded\"\n } ],\n \"optimizer_properties\"
omment、空约束,当前不支持修改列类型、列位置。 注意事项 目前不支持修改列类型。 目前不支持修改已存在列的顺序。 目前不支持指定顺序添加列。 命令语法 ALTER TABLE tableName ALTER [COLUMN] col_name [COMMENT] col_comment
table 'person')".stripMargin) 插入数据 1 sparkSession.sql("INSERT INTO TABLE person VALUES ('John', 30),('Peter', 45)".stripMargin) 查询数据 1 sparkSession
redis操作参数 参数 描述 host 需要连接的redis集群的IP。 获取方式为:登录华为云官网,之后搜索redis,进入“分布式缓存服务”,接着选择“缓存管理”,根据主机名称需要的IP,可选择其中任意一个IP进行复制即可(其中也包含了port信息),请参考图1。 port 访问端口。
Parquet:DLI支持读取不压缩、snappy压缩、gzip压缩的parquet数据。 CSV:DLI支持读取不压缩、gzip压缩的csv数据。 ORC:DLI支持读取不压缩、snappy压缩的orc数据。 JSON:DLI支持读取不压缩、gzip压缩的json数据。 Avro:DLI支持读取不压缩的avro数据。
3.3.1 委托 使用Spark 3.3.1及以上版本的引擎执行作业时,需要您先在IAM页面创建相关委托,并在此处添加新建的委托信息。选择该参数后系统将自动为您的作业添加以下配置: spark.dli.job.agency.name=agency 委托权限示例请参考创建DLI自定义委托权限和常见场景的委托权限策略。
SPARK:Spark模板。 name 是 String 模板名称。 body 是 String 模板内容。 group 否 String 模板分组名称。 description 否 String 模板描述信息。 language 否 String 语言。 响应参数 表3 响应参数 参数 参数类型 说明 id
创建增强型跨源连接后,使用RDS提供的"内网域名"或者内网地址和数据库端口访问,MySQL格式为"协议头://内网IP:内网端口",PostGre格式为"协议头://内网IP:内网端口/数据库名"。 例如:"jdbc:mysql://192.168.0.193:3306"或者"jdbc:postgresql://192
cache的最大行数,如果超过该值,缓存中最先添加的条目将被标记为过期。 默认情况下,lookup cache是未开启的。具体请参考Lookup Cache功能介绍。 lookup.cache.ttl 否 无 Duration lookup cache中每一行记录的最大存活时间,如果超过该时间,缓存中最先添加的条目将被标记为过期。
对未分区表进行流式读取时,要求将每个文件以原子方式写入目标目录。 分区表的流式读取要求在 hive 元存储的视图中以原子方式添加每个分区。否则,将使用添加到现有分区的新数据。 流式读取不支持 Flink DDL 中的水印语法。这些表不能用于窗口运算符。 语法格式 1 2 3
被展开成多列,行数与最高基数参数相同(其他列用空填充)。UNNEST可以选择使用WITH ORDINALITY子句,在这种情况下,会在末尾添加一个额外的ORDINALITY列。UNNEST通常与JOIN一起使用,可以引用JOIN左侧关系中的列。 使用单独一列 SELECT student
如何在DLI中运行复杂PySpark程序? 如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度 Spark jar 如何读取上传文件 添加Python包后,找不到指定的Python环境 为什么Spark jar 作业 一直处于“提交中”? 父主题: Spark作业相类
K对请求进行签名,签名过程会自动往请求中添加Authorization(签名认证信息)和X-Sdk-Date(请求发送的时间)请求头。 例如,对于IAM获取用户Token接口,由于不需要认证,所以只添加“Content-Type”即可,添加消息头后的请求如下所示。 POST https://iam
origin_zip, sum( package_weight ) FROM shipping GROUP BY ROLLUP ( origin_state, origin_zip ); --等同于 SELECT origin_state, origin_zip, sum(
自建队列购买方式如下: 购买队列请参考创建队列。 弹性资源池购买方式如下: 具体弹性资源池的购买和添加队列操作可以参考《数据湖探索用户指南》中的“创建弹性资源池”和“弹性资源池添加队列”相关章节。 父主题: 计费相关问题