检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
单击“确定”完成添加队列配置。 步骤3:创建数据库 在进行数据查询之前还需要创建一个数据库,例如db1。 “default”为内置数据库,不能创建名为“default”的数据库。 在DLI管理控制台,单击左侧导航栏中的“SQL编辑器”,可进入SQL作业“数据库”页面。 在“SQL编辑器”页面
想要插入到表中的值,列与列之间用逗号分隔。 注意事项 DLI表必须已经存在。 DLI表在创建时不需要指定Schema信息,Schema信息将使用RDS表的信息。如果select子句中选择的字段数量和类型与RDS表的Schema信息不匹配时,系统将报错。 不建议对同一张表并发插入数据,因为有一定概率发生并发冲突,导致插入失败。
若定义主键,则不能够定义复合主键,即主键只能是一个字段,不能是多个字段。 schema-syntax取值约束: 当schema-syntax为map或array时,非主键字段最多只能有一个,且需要为相应的map或array类型。 当schema-syntax为fields-scores
INSERT关键字说明 参数 描述 db_name 需要执行INSERT命令的表所在数据库的名称。 table_name 需要执行INSERT命令的表的名称。 part_spec 指定详细的分区信息。若分区字段为多个字段,需要包含所有的字段,但是可以不包含对应的值,系统会匹配上对应的分区。单表分区数最多允许100000个。
进入DataArts Studio数据开发页面 步骤1:创建数据库和表 开发创建数据库和表的SQL脚本 数据库和表是SQL作业开发的基础,在执行作业前您需要根据业务场景定义数据库和表。 本节操作介绍提交SQL脚本创建数据库和表的操作步骤。 在DataArts Studio数据开发页面,选择左侧导航栏的“数据开发
是否必选 参数类型 说明 sql 是 String 待执行的SQL语句。 currentdb 否 String SQL语句执行所在的数据库。当创建新数据库时,不需要提供此参数。 current_catalog 否 String 待提交作业的表的默认catalog。不填时默认使用DLI
把一个现有的列定义为一个为表标记事件时间的属性。该列的类型必须为 TIMESTAMP(3),且是 schema 中的顶层列,它也可以是一个计算列。 watermark_strategy_expression 定义了 watermark 的生成策略。它允许使用包括计算列在内的任意非查询表达式来计算
图3 所有资源 将上述的所有字段拼接为一个json就是一个完整的策略了,其中action和resource均可以设置多个,当然也可以通过IAM提供的可视化界面进行创建,例如: 授权用户拥有DLI服务,任意region,任意账号ID下,任意数据库的创建删除权限,任意队列的提交作业权限,任意表的删除权限。
appName("datasource-rds").getOrCreate(); 通过SQL API 访问 创建DLI跨源访问RDS的关联表,填写连接参数。 1 2 3 4 5 6 7 sparkSession.sql( "CREATE TABLE IF NOT EXISTS dli_to_rds USING
把一个现有的列定义为一个为表标记事件时间的属性。该列的类型必须为 TIMESTAMP(3),且是 schema 中的顶层列,它也可以是一个计算列。 watermark_strategy_expression 定义了 watermark 的生成策略。它允许使用包括计算列在内的任意非查询表达式来计算
put测试。建立测试数据库的过程被称为装载数据,装载测试是为测试DBMS装载数据的能力。装载测试是第一项测试,测试装载数据的时间,这项操作非常耗时。Power 测试是在数据装载测试完成后,数据库处于初始状态,未进行其它任何操作,特别是缓冲区还没有被测试数据库的数据,被称为raw查询。Power测试要求22
个计算过程的处理效率。 例如观察到SQL执行时间较长,进入SparkUI查看对应SQL的执行状态,如图1所示,查看到一个stage运行时间超过20分钟且只剩余一个task在运行,即为数据倾斜的情况。 图1 数据倾斜样例 常见数据倾斜场景 Group By聚合倾斜 在执行Group
功能描述 在当前database或指定database中创建一个新的角色。 只有在database上具有CREATE_ROLE权限的用户才能创建角色。例如:管理员用户、database的owner用户和被赋予了CREATE_ROLE权限的其他用户。 每个角色必须属于且只能属于一个database。
s.special_start_time), 'yyyymmdd') = substr('20220601',1,8) 父主题: DLI数据库和表类
table:清理多版本数据。 older_than:指定清理多版本数据的时间范围。 参数说明 表1 参数说明 参数 描述 db_name 数据库名称,由字母、数字和下划线(_)组成。不能是纯数字,且不能以数字和下划线开头。 table_name 表名称。 时间戳 删除该时间戳时间点
where子句中的多个条件 别名关系 下标表达式 解引用表达式 强制转换表达式 特定函数调用 目前,只在如下情况下支持多个semi/anti join表达式:第一个表中的列在其直接后续的join表达式中被查询,且不与其它join表达式有关系。 示例如下: CREATE SCHEMA testing
性能 基于软硬件一体化的深度垂直优化。 大数据开源版本性能。 跨源分析 支持多种数据格式,云上多种数据源、ECS自建数据库以及线下数据库,数据无需搬迁,即可实现对云上多个数据源进行分析,构建企业的统一视图,帮助企业快速完成业务创新和数据价值探索。
行结果。 row_count 否 Integer 作业结果总条数。 input_size 否 long 作业执行过程中扫描的数据量。 schema 否 Array of Map 作业结果列名称和类型。 rows 否 Array of objects 作业结果集。 示例 请求样例:
如果定义主键,则不能够定义复合主键,即主键只能是一个字段,不能是多个字段。 schema-syntax取值约束: 当schema-syntax为map或array时,非主键字段最多只能只有一个,且需要为相应的map或array类型。 当schema-syntax为fields-score
创建一张Hudi表: 将如下的建表语句粘贴至DLI SQL编辑器的输入区域,修改 LOCATION,执行引擎选择Spark,配置队列,数据目录,数据库,随后点击右上角的执行按钮,提交作业。 注意:由DLI提供元数据服务时,暂不支持创建Hudi内表,即必须配置 LOCATION 指向 OBS