检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
task在运行,即为数据倾斜的情况。 图1 数据倾斜样例 常见数据倾斜场景 Group By聚合倾斜 在执行Group By聚合操作时,如果某些分组键对应的数据量特别大,而其他分组键对应的数据量很小,在聚合过程中,数据量大的分组会占用更多的计算资源和时间,导致处理速度变慢,出现数据倾斜。
database_name Database名称,由字母、数字和下划线(_)组成。 table_name Database中的表名,由字母、数字和下划线(_)组成。 bucket_name obs桶名称。 tbl_path Delta表在obs桶中的存储位置。 num 保留期时长 所需权限 SQL权限
测试地址连通性 检查是否连接的是对端VPC和子网 创建增强型跨源连接时需要填写对端的VPC和子网。 例如,测试队列与指定RDS实例连通性,创建连接时需要填写RDS的VPC和子网信息。 图2 创建连接 检查队列的网段是否与数据源网段是否重合 绑定跨源的DLI队列网段和数据源网段不能重合。
database_name Database名称,由字母、数字和下划线(_)组成。 table_name Database中的表名,由字母、数字和下划线(_)组成。 bucket_name obs桶名称。 tbl_path Delta表在obs桶中的存储位置。 constraint_name 约束名称。
参考图10可以看到数据倾斜时,单个任务的shuffle数据远大于其他Task的数据,导致该任务耗时时间变长。 图10 数据倾斜示例图 数据倾斜原因和解决: Shuffle的数据倾斜基本是由于join中的key值数量不均衡导致。 对join连接条件进行group by 和count,统计每个连接条件的key值的数量。示例如下:
percentlie函数用于返回数值区域的百分比数值点。 命令格式 percentile(BIGINT col, p) 参数说明 表1 参数说明 参数 是否必选 说明 col 是 数据类型为数值的列。其他类型返回NULL。 p 是 0<=P<=1,否则返回NULL。 返回值说明 返回DOUBLE类型的值。 0<=P<=1
Service,简称DIS)为处理或分析流数据的自定义应用程序构建数据流管道,主要解决云服务外的数据实时传输到云服务内的问题。数据接入服务每小时可从数十万种数据源(如IoT数据采集、日志和定位追踪事件、网站点击流、社交媒体源等)中连续捕获、传送和存储数TB数据。DIS的更多信息,请参见《数据接入服务用户指南》。
扩容操作后,需要等待大约10分钟,具体时长和扩容的CU值有关,等待一段时间后,可以通过刷新“队列管理”页面,对比“规格”和“实际CUs”大小是否一致来判断是否扩容成功。或者在“作业管理”页面,查看“SCALE_QUEUE”类型SQL作业的状态,如果作业状态为“规格变更中”,表示队列正在扩容中。
若end_time为空,则查询start_time到当前时间点的数据。 查询当前时间点前15天到当前时间的数据(start_time和end_time同时为空)。 status 否 String 弹性资源池扩缩容的状态。 枚举值: success fail offset 否 Integer 偏移量。
Color 函数 bar(x, width) 描述:使用默认的低频红色和高频绿色渲染ANSI条形图中的单个条形。例如,如果将25%的x和40的宽度传递给此函数。将绘制一个10个字符的红色条形,后跟30个空格,以创建一个40个字符的条形。 bar(x, width, low_color,
指定作业运行使用的DLI基础Flink镜像的版本。 operator_config 否 String 各算子并行度参数,以json的形式展示各算子id和并行度。 static_estimator_config 否 String 静态流图资源预估参数,以json的形式展示。 real_cu_number
逻辑运算符 常用的逻辑操作符有AND、OR和NOT,它们的运算结果有三个值,分别为TRUE、FALSE和NULL,其中NULL代表未知。优先级顺序为:NOT>AND>OR。 运算规则请参见表1,表中的A和B代表逻辑表达式。 表1 逻辑运算符 运算符 返回类型 描述 A AND B
getFileStatus on obs://xxx: status [404] 解决方案 请排查在同一时间点是否还有另外作业对当前报错作业操作的表信息有删除操作。 DLI不允许同时有多个作业在同一时间点对相同表进行读写操作,否则会造成作业冲突,导致作业运行失败。 父主题: SQL作业运维类
String 标签的键。 说明: 标签的键的最大长度为128个字符,标签的键可以包含任意语种字母、数字、空格和_ . : =+-@ ,但首尾不能含有空格,不能以_sys_开头。 value 是 String 标签的值。 说明: 标签值的最大长度为255个字符,标签的值可以包含任意语种字母、数字、空格和_
解绑角色 功能描述 取消用户和角色的绑定。 语法格式 1 REVOKE ([db_name].role_name,...) FROM (user_name,...); 关键字 无。 注意事项 role_name和user_name必须存在,且user_name绑定了该role_name。
配置PowerBI通过Kyuubi连接DLI进行数据查询和分析 Power BI提供了数据集成、数据仓库、报告和数据可视化等功能,能够将复杂的数据转换为易于理解和交互的可视化图表和仪表板,从而帮助企业做出基于数据的决策。 Kyuubi是一个分布式SQL查询引擎,它允许用户通过标准的SQL接口来访问和分析数据。 将Power
I进行数据查询和分析 Superset是一个开源的数据探索和可视化平台,支持对数据进行快速、直观的探索,同时支持创建丰富的数据可视化和交互式仪表板。 Kyuubi是一个分布式 SQL 查询引擎,它提供了标准的SQL接口,使用户能够方便地访问和分析存储在大数据平台中的数据。 通过将
AOM服务提供的Prometheus监控是一种全面对接开源Prometheus生态的监控解决方案。它支持多种类型的组件监控,提供预置监控大盘和全面托管的Prometheus服务,通过Prometheus监控来统一采集、存储和显示监控对象的数据,适用于时间序列数据库的收集和处理,尤其适用于监控Flink作业场景。
首进入提交SQL作业的界面。提交SQL作业时需要选择支持Hudi的Spark SQL队列。 创建一张Hudi表: 将如下的建表语句粘贴至DLI SQL编辑器的输入区域,修改 LOCATION,执行引擎选择Spark,配置队列,数据目录,数据库,随后点击右上角的执行按钮,提交作业。
col 是 数据类型为数值的列。其他类型返回NULL。 p 是 0<=P<=1,否则返回NULL。 B 是 参数B控制近似的精确度,B值越大,近似度越高,默认值为10000。当列中非重复值的数量小于B时,返回精确的百分数。 返回值说明 返回DOUBLE类型的值。 示例代码 计算所有商品库存(items)的