检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
源和时间,导致处理速度变慢,出现数据倾斜。 JOIN 操作倾斜 在执行表JOIN操作时,参与JOIN的键在某个表中分布极不均匀,导致大量数据集中在少数几个任务中处理,而其他任务则已完成,造成数据倾斜。 Group By数据倾斜解决方案 取部分数据执行select count(*)
Spark生态和接口,性能较开源提升了2.5倍,在小时级即可实现EB级数据查询分析。 Flink是一款分布式的计算引擎,可以用来做批处理,即处理静态的数据集、历史的数据集;也可以用来做流处理,即实时地处理一些实时数据流,实时地产生数据的结果。DLI在开源Flink基础上进行了特性增强和安全增强,提供了数据处理所必须的Stream
在左侧导航栏中,选择“跨源管理 > 增强型跨源 ”。 绑定弹性资源池。 选择待绑定的增强型跨源连接,单击操作列的“更多 > 绑定弹性资源池”。 在绑定弹性资源池的对话框中,勾选待绑定的弹性资源池。 单击“确定”,弹性资源池的绑定。 绑定完成后,在增强型跨源的列表页面可以查看连接状态。 增强型跨源创建后状
修改权限,回收某用户具备的所有权限。 为新用户赋予权限 新用户指之前不具备此作业权限的用户。 单击“权限信息”右侧的“授权”,弹出“授权”对话框。 填写“用户名”,并勾选对应权限。 单击“确定”,完成新用户的添加。 待设置的参数说明如表1所示。 图1 Flink作业授权 表1 Flink作业授权参数说明
使用DLI分析电商实时业务数据 应用场景 当前线上购物无疑是最火热的购物方式,而电商平台则又可以以多种方式接入,例如通过web方式访问、通过app的方式访问、通过微信小程序的方式访问等等。而电商平台则需要每天统计各平台的实时访问数据量、订单数、访问人数等等指标,从而能在显示大屏上
修改模板仅支持对自定义模板进行操作,具体步骤如下: 在“SQL模板”页面,单击“自定义模板”,选中需修改的模板,单击“操作”列的“修改”。 在弹出的“修改模板”对话框中,根据需要修改模板的名称、语句和描述。 单击“确定”,保存修改结果。 删除模板 在“SQL模板”页面,单击“自定义模板”,勾选一个或多
单击需要查看的作业名称,进入“作业详情”页面。 单击“标签”页签,显示当前作业的标签信息。 图1 管理作业标签 单击“添加/编辑标签”,弹出“添加/编辑标签”对话框。 在“添加/编辑标签”对话框中配置标签参数。 图2 添加标签 表1 标签配置参数 参数 参数说明 标签键 您可以选择: 在输入框的下拉列表中选择预定义标签键。
Hudi Clean操作说明 什么是Clean Cleaning用于清理Hudi表不再需要的老版本数据文件 (parquet文件或者log文件),减轻存储压力,提升list操作效率。 如何执行Clean 写完数据后clean Spark SQL(设置如下参数,随后执行任意写入SQL时,在满足条件时触发)
为新用户或项目赋予权限 为新用户或项目赋予权限,新用户或项目指之前不具备此表任何权限的用户或项目。 单击表权限管理页面右上角的“授权”按钮。 在弹出的“授权”对话框中选择相应的权限。 DLI表具体权限说明请参考表1。 图2 DLI表用户授权 图3 DLI表项目授权 表1 参数配置 参数 描述 授权对象
Spark SQL语法概览 本章节介绍了目前DLI所提供的Spark SQL语法列表。参数说明,示例等详细信息请参考具体的语法说明。 表1 批作业SQL语法 语法分类 操作链接 数据库相关语法 创建数据库 删除数据库 查看指定数据库 查看所有数据库 创建OBS表相关语法 使用DataSource语法创建OBS表
在DLI管理控制台的左侧导航栏中,单击“作业管理”>“Flink作业”,进入Flink作业管理页面。 单击右上角“导出作业”,打开“导出作业”对话框。 图2 导出作业 选择保存作业的OBS桶。单击“下一步”。 选择待导出的作业。 默认导出所有作业,也可以勾选“自定义导出”选择需要导出的作业。
检查读取的数据量 确认客户验证数据量的方式是否正确。客户验证的方式如下: 通过OBS下载数据文件。 通过文本编辑器打开数据文件,发现数据量缺失。 根据该验证方式,初步定位是因为文件数据量较大,文本编辑器无法全部读取。 通过执行查询语句,查询OBS数据进一步进行确认,查询结果确认数据量正确。
(none) String 指定要使用的格式, 这里应该是 'raw'。 raw.charset 否 UTF-8 String 指定字符集来编码文本字符串。 raw.endianness 否 big-endian String 指定字节序来编码数字值的字节。有效值为'big-endian'和'little-endian'。
设置多版本备份数据保留周期 功能描述 在DLI数据多版本功能开启后,备份数据默认保留7天,您可以通过配置系统参数“dli.multi.version.retention.days”调整保留周期。保留周期外的多版本数据后续在执行insert overwrite或者truncate语
Schema字段数量不匹配时,系统将报错。 类型不一致时不一定报错,例如插入int类型数据,但CSS中Schema保存的是文本类型,int类型会被转换成文本类型。 不建议对同一张表并发插入数据,因为有一定概率发生并发冲突,导致插入失败。 示例 查询表“user”中的数据插入表“test”中。
在左侧导航栏中,选择“跨源管理 > 增强型跨源 ”。 选择待修改的增强型跨源连接,单击操作列的“更多 > 修改主机信息”。 在修改主机信息对话框中,填写已获取的主机信息。 主机信息格式:hostIP hostName。多个主机信息以换行分隔。 样例: 192.168.0.22 node-masterxxx1
默认操作类型。Hudi会根据主键进行判断即将插入的数据是否包含更新数据,如果包含则执行upsert,否则执行insert。 由于insert时不会对主键进行排序,所以初始化数据集不建议使用insert,建议用bulk_insert。 确定数据都为新增数据时建议使用insert,当存在更新数据时建议使用upsert。
管理。 登录DLI管理控制台,单击“数据管理 > 程序包管理”。 在“程序包管理”页面,单击右上角的“创建”创建程序包。 在“创建程序包”对话框,配置以下参数。 包类型:选择“JAR”。 OBS路径:程序包所在的OBS路径。 分组设置和组名称根据情况选择设置,方便后续识别和管理程序包。
在对应队列的“操作”列,选择“更多”>“标签”。 进入标签管理页面,显示当前队列的标签信息。 单击“添加/编辑标签”,弹出“添加/编辑标签”对话框,配置参数。配置完成一个标签,单击“添加”将标签添加到输入框中。 图1 添加/编辑标签 表1 标签配置参数 参数 参数说明 标签键 您可以选择:
在对应连接的“操作”列,选择“更多”>“标签”。 进入标签管理页面,显示当前连接的标签信息。 单击“添加/编辑标签”,弹出“添加/编辑标签”对话框,配置参数。标签键和标签值设置完成后,单击“添加”,将标签加入到输入框中。 图1 添加标签 表1 标签配置参数 参数 参数说明 标签键 您可以选择: