检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
计算节点处理的数据量远大于其他节点,从而影响整个计算过程的处理效率。 例如观察到SQL执行时间较长,进入SparkUI查看对应SQL的执行状态,如图1所示,查看到一个stage运行时间超过20分钟且只剩余一个task在运行,即为数据倾斜的情况。 图1 数据倾斜样例 常见数据倾斜场景
功能描述 print connector用于将用户输出的数据打印到error文件或者taskmanager的out文件中,方便用户查看,主要用于代码调试,查看输出结果。 语法格式 1 2 3 4 5 6 7 create table printSink ( attr_name attr_type
/s级别带宽和百万级别的IOPS,适用于大数据交互式分析场景。 注意事项 创建表时会统计大小。 添加数据时不会修改大小。 如需查看表大小可以通过OBS查看。 CTAS建表语句不能指定表的属性。 关于分区表的使用说明: 创建分区表时,PARTITONED BY中指定分区列必须是不在
DLI跨源分析流程 使用DLI进行跨源分析,需要先建立跨源连接,打通DLI和数据源的网络,再开发不同的作业访问数据源。 图1 跨源分析流程 相关链接 创建方式 增强型跨源连接 管理控制台操作 创建增强型跨源连接 API接口 《增强型跨源连接相关API》 父主题: 配置DLI与数据源网络连通(增强型跨源连接)
示例说明:根据示例1:创建DLI非分区表中创建的DLI表table1,使用CTAS语法将table1中的数据复制到table1_ctas表中。 在使用CTAS建表的时候,可以忽略被复制的表在建表时所使用的语法,即不论在创建table1时使用的是何种语法,都可以使用DataSource语
获取增强型跨源连接创建的对等连接ID。 图8 获取对等连接ID 在VPC-对等连接控制台查看对等连接信息。 图9 查看对等连接 图10 查看队列网段 查看队列对应的VPC的路由表信息。 图11 查看路由表目的地址-1 检查VPC网络是否设置了ACL规则限制了网络访问 网络ACL对子网
二:通过在Eclipse中导入JAR文件安装SDK。 获取DLI SDK 在“DLI SDK DOWNLOAD”页面,单击选择所需的SDK链接,即可获取对应的SDK安装包。 表1 目录结构 名称 说明 jars SDK及其依赖的jar包。 maven-install 安装至本地Maven仓库的脚本及对应jar包。
可以包含任意语种字母、数字、空格和_ . : +-@ 。 单击“确定”,创建增强型跨源连接。 创建完成后,增强型跨源连接的链接状态显示“已激活”,代表该链接创建成功。 数据源所在安全组放通弹性资源池的网段 在DLI管理控制台,获取弹性资源池/队列的网段。 单击“资源管理 > 队列
newTableName 新表名。 示例 ALTER TABLE table1 RENAME TO table2 系统响应 通过运行SHOW TABLES查看新的表名。 父主题: Schema演进语法说明
history for table dliTable older_than '2021-09-25 23:59:59'; 父主题: 多版本备份恢复数据
Print结果表 功能描述 Print connector用于将用户输出的数据打印到error文件或者taskmanager的文件中,方便用户查看,主要用于代码调试,查看输出结果。 前提条件 无。 注意事项 Print结果表支持以下四种格式内容输出: 打印内容 条件1 条件2 标识符:任务 ID>
Spark作业开发类 Spark作业使用咨询 Spark如何将数据写入到DLI表中 通用队列操作OBS表如何设置AK/SK 如何查看DLI Spark作业的实际资源使用情况 将Spark作业结果存储在MySQL数据库中,缺少pymysql模块,如何使用python脚本访问MySQL数据库?
TABLE参数描述 参数 描述 tableIdentifier 表名。 示例 truncate table h0_1; 系统响应 通过运行QUERY语句查看表中数据已被删除。 父主题: Hudi DDL语法说明
功能描述 Print connector用于将用户输出的数据打印到taskmanager中的error文件或者out文件中,方便用户查看,主要用于代码调试,查看输出结果。 前提条件 无。 注意事项 Print结果表支持以下四种格式内容输出: 打印内容 条件1 条件2 标识符:任务 ID>
用于CTAS命令,将源表的select查询结果或某条数据插入到新创建的OBS表中。 表2 OPTIONS参数描述 参数 是否必选 描述 path 否 指定的表路径,即OBS存储路径。 multiLevelDirEnable 否 嵌套子目录场景下,是否迭代查询子目录中的数据。当配置为true时,查询该表时会迭
UNSET TBLPROPERTIES [IF EXISTS] ('comment', 'key') 系统响应 通过运行DESCRIBE命令查看表属性修改。 父主题: Schema演进语法说明
SQL作业时,在作业编辑界面的“运行参数”处,“Flink版本”需要选择“1.12”,勾选“保存作业日志”并设置保存作业日志的OBS桶,方便后续查看作业日志。 同步数据库数据的客户端,都会有一个唯一ID,即Server ID。同一个数据库下,建议每个MySQL CDC作业配置不同的Server
用于CTAS命令,将源表的select查询结果或某条数据插入到新创建的DLI表中。 表2 OPTIONS参数描述 参数 是否必选 描述 默认值 multiLevelDirEnable 否 是否迭代查询子目录中的数据。当配置为true时,查询该表时会迭代读取该表路径中所有文件,包含子目录中的文件。
DLI支持的作业类型 作业类型 说明 适用场景 SQL作业 适用于使用标准SQL语句进行查询的场景。通常用于结构化数据的查询和分析。 详细操作请参考创建并提交SQL作业。 适用于数据仓库查询、报表生成、OLAP(在线分析处理)等场景。 Flink作业 专为实时数据流处理设计,适用
约束与限制 您能创建的资源的数量与配额有关系,如果您想查看服务配额、扩大配额,具体请参见《如何申请扩大配额》。 更详细的限制请参见具体API的说明。 父主题: API使用前必读