-
CREATE TABLE语句 - 数据湖探索 DLI
则将会为每个分区创建一个目录。 WITH OPTIONS 表属性用于创建 table source/sink ,一般用于寻找和创建底层的连接器。 表达式 key1=val1 的键和值必须为字符串文本常量。 注意: 使用 CREATE TABLE 语句注册的表均可用作 table source
-
导入数据(废弃) - 数据湖探索 DLI
"job_mode":"async" } 状态码 状态码如表5所示。 表5 状态码 状态码 描述 200 导入成功。 400 请求错误。 500 内部服务器错误。 错误码 调用接口出错后,将不会返回上述结果,而是返回错误码和错误信息,更多介绍请参见错误码。 父主题: SQL作业相关API(废弃)
-
CREATE TABLE语句 - 数据湖探索 DLI
则将会为每个分区创建一个目录。 WITH OPTIONS 表属性用于创建 table source/sink ,一般用于寻找和创建底层的连接器。 表达式 key1=val1 的键和值必须为字符串文本常量。 注意: 使用 CREATE TABLE 语句注册的表均可用作 table source
-
java样例代码 - 数据湖探索 DLI
conf和user.keytab文件添加到作业的依赖文件中,未开启Kerberos认证该步骤忽略。如图1所示: 图1 添加依赖文件 在Spark作业编辑器中选择对应的Module模块并执行Spark作业。 控制台操作请参考《数据湖探索用户指南》。API操作请参考《数据湖探索API参考》>《创建批处理作业》。
-
pyspark样例代码 - 数据湖探索 DLI
将写好的python代码文件上传至DLI中。 控制台操作请参考《数据湖探索用户指南》。API操作请参考《数据湖探索API参考》>《上传资源包》。 在Spark作业编辑器中选择对应的Module模块并执行Spark作业。 控制台操作请参考《数据湖探索用户指南》。API操作请参考《数据湖探索API参考》>《创建批处理作业》。
-
Redis维表 - 数据湖探索 DLI
作为redis维表时,是否使用异步 I/O。 lookup.parallelism 否 无 int 定义查找联接运算符的自定义并行度。默认情况下,如果未定义此选项,则规划器将通过考虑全局配置(如果定义了选项“lookup.parallelism”)来推导并行度,否则将考虑输入运算符的并行度。 lookup.batch
-
scala样例代码 - 数据湖探索 DLI
将写好的代码生成jar包,上传至DLI中。 控制台操作请参考《数据湖探索用户指南》。API操作请参考《数据湖探索API参考》>《上传资源包》。 在Spark作业编辑器中选择对应的Module模块并执行Spark作业。 控制台操作请参考《数据湖探索用户指南》。API操作请参考《数据湖探索API参考》>《创建批处理作业》。
-
插入数据 - 数据湖探索 DLI
partition(part1='v1', part2='v2') select * from ... 在“数据湖探索管理控制台>SQL编辑器”页面,单击编辑窗口右上角“设置”,可配置参数。 通过配置“spark.sql.shuffle.partitions”参数可以设置非DLI表
-
Confluent Avro Format - 数据湖探索 DLI
<topic_name>-value'或'<topic_name>-key'作为默认主题名称,如果此格式用作键或值的格式。但是对于其他连接器(例如'filesystem'),在用作sink时需要使用主题选项。 avro-confluent.url 否 无 String 用于获取/注册架构的Confluent
-
Maxwell Format - 数据湖探索 DLI
ary_key_columns字段(如果可用)。 ingestion-timestamp TIMESTAMP_LTZ(3) NULL 连接器处理事件的时间戳。对应Maxwell记录中的ts字段。 元数据使用示例如下: CREATE TABLE KafkaTable ( origin_database
-
使用DLI进行账单分析与优化 - 数据湖探索 DLI
在DLI上进行消费明细分析。 将1下载的消费明细数据上传到已建好的OBS桶中。 在数据湖探索服务中创建表。 登录DLI控制台,左侧导航栏单击“SQL编辑器”,执行引擎选择“spark”,选择执行的队列和数据库。本次演示队列和数据库选择“default”。 下载的文件中包含时间用量等,按表头意义
-
插入数据 - 数据湖探索 DLI
partition(part1='v1', part2='v2') select * from ... 在“数据湖探索管理控制台>SQL编辑器”页面,单击编辑窗口右上角“设置”,可配置参数。 通过配置“spark.sql.shuffle.partitions”参数可以设置非DLI表
-
导入数据 - 数据湖探索 DLI
如果在CSV数据中输入ESCAPECHAR,该ESCAPECHAR必须在双引号(" ")内。例如:"a\b"。 MAXCOLUMNS:该可选参数指定了在一行中,CSV解析器解析的最大列数。 配置项为OPTIONS('MAXCOLUMNS'='400') 表2 MAXCOLUMNS 可选参数名称 默认值 最大值 MAXCOLUMNS
-
导入数据 - 数据湖探索 DLI
如果在CSV数据中输入ESCAPECHAR,该ESCAPECHAR必须在双引号(" ")内。例如:"a\b"。 MAXCOLUMNS:该可选参数指定了在一行中,CSV解析器解析的最大列数。 配置项为OPTIONS('MAXCOLUMNS'='400') 表2 MAXCOLUMNS 可选参数名称 默认值 最大值 MAXCOLUMNS
-
权限管理 - 数据湖探索 DLI
略的授权是一种更加灵活的授权方式,能够满足企业对权限最小化的安全管控要求。例如:针对DLI服务,管理员能够控制IAM用户仅能对某一类云服务器资源进行指定的管理操作。DLI支持的API授权项请参见《权限策略和授权项》。 表1 DLI系统权限 系统角色/策略名称 描述 类别 依赖关系
-
使用Spark作业访问DLI元数据 - 数据湖探索 DLI
1访问元数据,则必须新建队列。 不支持的场景: 在SQL作业中创建了数据库(database),编写程序代码指定在该数据库下创建表。 例如在DLI的SQL编辑器中的某SQL队列下,创建了数据库testdb。后续通过编写程序代码在testdb下创建表testTable,编译打包后提交的Spark Jar作业则会运行失败。
-
权限管理概述 - 数据湖探索 DLI
略的授权是一种更加灵活的授权方式,能够满足企业对权限最小化的安全管控要求。例如:针对DLI服务,管理员能够控制IAM用户仅能对某一类云服务器资源进行指定的管理操作。 了解DLI SQL常用操作与系统策略的授权关系,请参考常用操作与系统权限关系。 表1 DLI系统权限 系统角色/策略名称
-
在Spark SQL作业中使用UDAF - 数据湖探索 DLI
单击“确定”,完成创建程序包。 创建UDAF函数。 登录登录DLI管理控制台,创建SQL队列和数据库。 登录DLI管理控制台,单击“SQL编辑器”,执行引擎选择“spark”,选择已创建的SQL队列和数据库。 在SQL编辑区域输入下列命令创建UDAF函数,单击“执行”提交创建。 如果
-
在Spark SQL作业中使用UDTF - 数据湖探索 DLI
识别和管理程序包。 单击“确定”,完成创建程序包。 图11 创建程序包 创建DLI的UDTF函数。 登录DLI管理控制台,单击“SQL编辑器”,执行引擎选择“spark”,选择已创建的SQL队列和数据库。 图12 选择队列和数据库 在SQL编辑区域输入实际上传Jar包的路径创建UDTF函数,单击“执行”提交创建。
-
CREATE TABLE语句 - 数据湖探索 DLI
则将会为每个分区创建一个目录。 WITH OPTIONS 表属性用于创建 table source/sink ,一般用于寻找和创建底层的连接器。 表达式 key1=val1 的键和值必须为字符串文本常量。 注意: 表名可以为以下三种格式 1. catalog_name.db_name