检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
并删除那些不满足WHERE子句条件的分区,适用于在处理具有大量分区的表时。 如果SQL查询中包含大量的嵌套left join操作,并且表有大量的动态分区时,这可能会导致在数据解析时消耗大量的内存资源,导致Driver节点的内存不足,并触发频繁的Full GC。 在这种情况下,可以
有小文件的更新来解决小文件的问题。此处的大小是被视为“小文件大小”的最小文件大小。 104857600 byte hoodie.copyonwrite.insert.split.size 插入写入并行度。为单个分区的总共插入次数。写出100MB的文件,至少1KB大小的记录,意味着
步骤4:创建增强型跨源连接 创建DLI连接Kafka的增强型跨源连接 在Kafka管理控制台,选择“Kafka专享版”,单击对应的Kafka名称,进入到Kafka的基本信息页面。 在“连接信息”中获取该Kafka的“内网连接地址”,在“基本信息”的“网络”中获取获取该实例的“虚拟私有云”和“子网”信息,方便后续操作步骤使用。
field:进行分桶时计算Hash值的字段,必须为主键的子集,默认为Hudi表的主键。该参数不填则默认为recordkey.field。 创建Flink OpenSource SQL作业时,在作业编辑界面的“运行参数”处,“Flink版本”需要选择“1.15”,勾选“保存作业日志”并设置保存作业日志的OBS桶,方便后续查看作业日志。
EXCEPT_KEY:记录的value部分包含schema的所有内容,定义为主键的字段除外。 properties.* 否 无 String 该选项可以传递任意的Kafka参数。 “properties.”后的后缀名必须匹配定义在 kafka参数文档中的参数名。 Flink会自动移除选项名中的 "properties
Management,简称IAM)进行精细的企业级多租户管理。该服务提供用户身份认证、权限分配、访问控制等功能,可以帮助您安全地控制华为云资源的访问。 通过IAM,您可以在华为云账号中给员工创建IAM用户,并使用策略来控制他们对华为云资源的访问范围。 目前包括角色(粗粒度授权)和策略(细粒度授权)。具体的权限介绍
业。 约束限制 新队列第一次运行作业时,需要一定的时间,通常为6~10分钟。 涉及接口 创建弹性资源池:创建弹性资源池。 创建队列:在弹性资源池中添加队列。 上传分组资源:上传Spark作业所需的资源包。 查询组内资源包:确认上传的资源包是否正确。 创建批处理作业:创建并提交Spark批处理作业。
Livy工具配置文件 上传指定的DLI Livy工具jar资源包到OBS桶路径下。 登录OBS控制台,在指定的OBS桶下创建一个存放Livy工具jar包的资源目录。例如:“obs://bucket/livy/jars/”。 进入3.a中DLI Livy工具所在ECS服务器的安装目录,获取以下jar包,将获取的jar包上传到1
某电商商城在保持高速发展的同时,沉淀了数亿的忠实用户,积累了海量的真实数据。如何利用BI工具从历史数据中找出商机,是大数据应用在精准营销中的关键问题,也是所有电商平台在做智能化升级时所需要的核心技术。 本案例以某商城真实的用户、商品、评论数据(脱敏后)为基础,利用数据湖探索来分析用户和商品的各种数
'330110'); 参考增强型跨源连接,根据DWS所在的虚拟私有云和子网创建相应的增强型跨源,并绑定所要使用的Flink弹性资源池。 设置DWS的安全组,添加入向规则使其对Flink的队列网段放通。参考测试地址连通性根据DWS的地址测试队列连通性。若能连通,则表示跨源已经绑定成功,否则表示未成功。
使用CREATE TABLE创建一个具有指定列的、新的空表。使用CREATE TABLE AS创建带数据的表。 使用可选参数IF NOT EXISTS,如果表已经存在则不会报错。 WITH子句可用于在新创建的表或单列上设置属性,如表的存储位置(location)、是不是外表(external)等。
单击左侧导航栏的图标,选择“大数据 > 数据湖探索 DLI”。 在队列或弹性资源池的列表页,选中待续费的包年/包月资源。 单击“操作”列下的“更多 > 续费”。 选择续费时长,判断是否勾选“统一到期日”,将到期时间统一到各个月的某一天(详细介绍请参见统一包年/包月资源的到期日)。确认配置费用后单击“去支付”。
在弹性资源池的列表页,选择要操作的弹性资源池,单击操作列的“添加队列”。 配置队列的基础配置,具体参数信息如下。 表2 弹性资源池添加队列基础配置 参数名称 参数说明 名称 弹性资源池添加的队列名称。 类型 选择创建的队列类型。 执行SQL作业请选择SQL队列。 执行Flink或Spark作业请选择通用队列。
Integer MySQL数据库的端口号。 server-id 否 5400~6000随机值 String 数据库客户端的一个数字ID,该ID必须是MySQL集群中全局唯一的。建议针对同一个数据库的每个作业都设置一个不同的ID。 默认会随机生成一个5400~6400的值。 scan.startup
查看弹性资源池扩缩容历史 操作场景 当弹性资源池添加队列、删除队列,或添加的队列扩缩容时,可能会引起弹性资源CUs扩缩容变化。控制台提供的“扩缩容历史”功能,可以查看弹性资源池的CUs变化历史。 约束与限制 当前控制台仅支持查看30天以内的弹性资源池扩缩容历史。 查看弹性资源池扩缩容历史 在DLI管理控制台左侧,选择“资源管理
为防止资源滥用,平台限定了各服务资源的配额,对用户的资源数量和容量做了限制。 如果当前资源配额限制无法满足使用需要,您可以申请扩大配额。 怎样查看我的配额 登录管理控制台。 单击管理控制台左上角的,选择区域和项目。 在页面右上角,选择“资源 > 我的配额”。 系统进入“服务配额”页面。 图1 我的配额 您可
为防止资源滥用,平台限定了各服务资源的配额,对用户的资源数量和容量做了限制。 如果当前资源配额限制无法满足使用需要,您可以申请扩大配额。 怎样查看我的配额 登录管理控制台。 单击管理控制台左上角的,选择区域和项目。 在页面右上角,选择“资源 > 我的配额”。 系统进入“服务配额”页面。 图1 我的配额 您可
参考增强型跨源连接,根据PostgreSQL所在的虚拟私有云和子网创建相应的增强型跨源,并绑定所要使用的Flink弹性资源池。 设置PostgreSQL的安全组,添加入向规则使其对Flink的队列网段放通。参考测试地址连通性根据PostgreSQL的地址测试队列连通性。若能连通,则表示跨源已经绑定成功,否则表示未成功。
S表即可对OBS上的数据进行分析和处理。 本指导中的操作内容包括:创建OBS表、导入OBS表数据、插入和查询OBS表数据等内容来帮助您更好的在DLI上对OBS表数据进行处理。 前提条件 已创建OBS的桶。具体OBS操作可以参考《对象存储服务用户指南》。本指导中的OBS桶名都为“dli-test-021”。
创建弹性资源池后,您可以在弹性资源池中创建多个队列,队列关联到具体的作业和数据处理任务,是资源池中资源被实际使用和分配的基本单元,即队列是执行作业所需的具体的计算资源。 同一弹性资源池中,队列之间的计算资源支持共享。 通过合理设置队列的计算资源分配策略,可以提高计算资源利用率。 具体操作请参考:创建弹性资源池并添加队列。