检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
图1 数据倾斜样例 常见数据倾斜场景 Group By聚合倾斜 在执行Group By聚合操作时,如果某些分组键对应的数据量特别大,而其他分组键对应的数据量很小,在聚合过程中,数据量大的分组会占用更多的计算资源和时间,导致处理速度变慢,出现数据倾斜。
IMPORT:导入数据到DLI的作业。 EXPORT:从DLI导出数据的作业。 DCL:包括传统DCL,以及队列权限相关的操作。 DDL:与传统DDL操作一致,即创建和删除数据库,创建和删除表的作业。 QUERY:执行SQL查询数据的作业。
配置DBeaver连接DLI进行数据查询和分析 DBeaver 是一个免费且开源的数据库管理工具,支持多种数据库,通过DBeaver这款可视化数据库管理工具可以查看数据库结构、执行SQL查询和脚本、浏览和导出数据等。本节操作介绍DBeaver连接DLI服务的操作步骤。
修改数据库所有者 修改数据库所有者的入口有两个,分别在“数据管理”和“SQL编辑器”页面。 在“数据管理”页面修改数据库所有者。 在管理控制台左侧,单击“数据管理”>“库表管理”。 在“库表管理”页面选中需要修改的数据库,单击“操作”栏中的“更多 > 修改数据库”。
结果数据类型与操作数据类型相关,例如一个整数类型数据加上一个浮点类型数据,结果数值为浮点类型数据。 A - B 所有数字类型 A和B相减。结果数据类型与操作数据类型相关。 A * B 所有数字类型 A和B相乘。结果数据类型与操作数据类型相关。
在将数据导入DLI之前,确保源数据文件(如CSV、JSON等)是以UTF-8编码保存的。如果数据源不是UTF-8编码,请在导入前提前转换为UTF-8编码。 父主题: DLI数据库和表类
数据库会自动为这些字段生成值。例如,如果表中有一个名为id的自增主键字段,您可以在插入数据时不包含这个字段,数据库会自动为新插入的行分配一个唯一的id值。 使用NULL值:如果您需要在插入数据时明确指定某些字段由数据库自动填充,可以在这些字段的位置填写NULL。
如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。 如何设置安全组规则,请参见《虚拟私有云用户指南》中“安全组”章节。 Flink跨源开发场景中直接配置跨源认证信息存在密码泄露的风险,优先推荐您使用DLI提供的跨源认证。
怎样配置DLI队列与数据源的网络连通? 配置DLI队列与内网数据源的网络连通 DLI在创建运行作业需要连接外部其他数据源,如:DLI连接MRS、RDS、CSS、Kafka、DWS时,需要打通DLI和外部数据源之间的网络。
使用DLI的跨源认证管理数据源访问凭证 跨源认证概述 创建CSS类型跨源认证 创建Kerberos跨源认证 创建Kafka_SSL类型跨源认证 创建Password类型跨源认证 跨源认证权限管理 父主题: 配置DLI读写外部数据源数据
步骤8:创建Flink OpenSource SQL作业 准备好数据源和数据输出通道后创建Flink OpenSource SQL作业分析数据。 准备工作 已注册华为账号并开通华为云,且在使用DLI前检查账号状态,账号不能处于欠费或冻结状态。
数据加密服务(Data Encryption Workshop, DEW)是一个综合的云上数据加密服务,为您解决数据安全、密钥安全、密钥管理复杂等问题。推荐使用数据加密服务DEW来存储数据源的认证信息。
在数据库实例界面,单击“新建数据库”,数据库名定义为:testrdsdb,字符集保持默认即可。 在已创建的数据库的操作列,单击“SQL查询”,输入以下创建表语句,创建RDS MySQL表。
问题描述 Flink Opensource SQL从RDS数据库读取的时间和RDS数据库存储的时间为不一致 根因分析 该问题的根因是数据库设置的时区不合理,通常该问题出现时Flink读取的时间和RDS数据库的时间会相差13小时。
表1 DLI常用开发指南与最佳实践 场景 操作指导 描述 Spark SQL作业开发 使用Spark SQL作业分析OBS数据 介绍使用Spark SQL作业创建OBS表、导入OBS表数据、插入和查询OBS表数据等操作。
用户名称 访问数据源的用户名。 用户密码 访问数据源的密码。 图1 创建认证信息-Password 访问数据源。 跨源认证创建成功后,在创建访问数据源时只需关联跨源认证即可安全访问数据源。 建表时关联跨源认证的字段请参考表3。
关联OBS桶中嵌套的JSON格式数据如何创建表 如果需要关联OBS桶中嵌套的JSON格式数据,可以使用异步模式创建表。
权限要求 增强型跨源连接需要使用VPC、子网、路由、对等连接功能,因此需要获得VPC(虚拟私有云)的VPC Administrator权限。 可在服务授权中进行设置。 使用约束限制 使用DLI增强型跨源时,弹性资源池/队列的网段与数据源网段不能重合。
Java SDK Java SDK概述 Java SDK环境配置 OBS授权 队列相关 资源相关 SQL作业相关 Flink作业相关 Spark作业相关 Flink作业模板相关
≥0 队列 5分钟 flink_read_records_per_second Flink作业数据输入速率 展示用户Flink作业的数据输入速率,供监控和调试使用。