检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
骤如下: 登录DLI管理控制台,单击“作业管理 > SQL作业”,对应SQL作业行的操作列,单击“编辑”按钮,跳转到“SQL编辑器”。 在“SQL编辑器”中,单击“设置”,参考如下图配置添加参数。 图1 设置参数 重新执行作业。 父主题: SQL作业运维类
确认客户验证数据量的方式是否正确。客户验证的方式如下: 通过OBS下载数据文件。 通过文本编辑器打开数据文件,发现数据量缺失。 根据该验证方式,初步定位是因为文件数据量较大,文本编辑器无法全部读取。 通过执行查询语句,查询OBS数据进一步进行确认,查询结果确认数据量正确。 因此,该问题为验证方式不正确造成。
table1; 图1 查询表数据 在DLI上创建数据库和表。 登录DLI管理控制台,选择“SQL编辑器”,在SQL编辑器中“执行引擎”选择“spark”,“队列”选择已创建的SQL队列。 在编辑器中输入以下语句创建数据库,例如当前创建迁移后的DLI数据库testdb。详细的DLI创建数据库的语法可以参考创建DLI数据库。
“SQL编辑器”页面。 在“数据管理”页面导出数据。 在管理控制台左侧,单击“数据管理”>“库表管理”。 单击需导出数据的表对应的数据库,进入该数据的“表管理”页面。 在对应表(DLI表)的“操作”栏中选择“更多”中的“导出”,弹出“导出数据”页面。 在“SQL编辑器”页面导出数据。
用户已上传到DLI资源管理系统的资源包名,用户自定义作业的依赖文件。 示例:"myGroup/test.cvs,myGroup/test1.csv"。 通过在应用程序中添加以下内容可访问对应的依赖文件。其中,“fileName”为需要访问的文件名,“ClassName”为需要访问该文件的类名。 ClassName
使用自定义镜像增强作业运行环境 自定义镜像应用场景 通过下载DLI提供的基础镜像再按需制作自定义镜像,将作业运行需要的依赖(文件、jar包或者软件)、私有能力等内置到自定义镜像中,以此改变Spark作业和Flink作业的容器运行环境,增强作业的功能、性能。 例如,在自定义镜像中加
Configurations”界面,勾选:include dependencies with "Provided" scope。 单击“OK”完成应用配置。 使用方式 将写好的自定义函数打成JAR包,并上传到OBS上。 在DLI管理控制台的左侧导航栏中,单击数据管理>“程序包管理”,然后
Workshop,DEW)、云凭据管理服务(Cloud Secret Management Service,CSMS),提供一种安全、可靠、简单易用隐私数据加解密方案。 用户或应用程序通过凭据管理服务,创建、检索、更新、删除凭据,轻松实现对敏感凭据的全生命周期的统一管理,有效避免程序硬编码或明文配置等问题导致的敏感信息泄露以及权限失控带来的业务风险。
再到具体的DLI上执行。 在DLI上创建数据库和表。 登录DLI管理控制台,选择“SQL编辑器”,在SQL编辑器中“执行引擎”选择“spark”,“队列”选择已创建的SQL队列。 在编辑器中输入以下语句创建数据库,例如当前创建迁移后的DLI数据库testdb。详细的DLI创建数据库的语法可以参考创建DLI数据库。
JOIN数据倾斜解决方案 登录数据湖探索管理控制台,选择“SQL作业”,在要修改的作业所在行的“操作”列,单击“编辑”进入SQL编辑器界面。 在SQL编辑器界面,单击“设置”,在“配置项”尝试添加以下几个Spark参数进行解决。 参数项如下,冒号前是配置项,冒号后是配置项的值。 spark
varbinary 使用给定的key计算二进制块的HMAC值(采用 sha512)。 CRC32、MD5、SHA1算法在密码学场景已被攻击者破解,不建议应用于密码学安全场景。 父主题: SQL函数和操作符
具体操作请参考《创建用户并授权使用DLI》和《DLI自定义策略》。 与云审计服务(CTS)的关系 云审计服务(Cloud Trace Service)为DLI提供对应用户的操作审计。 云审计服务支持的DLI操作请参考《云审计服务支持的DLI操作列表说明》。 与云监控服务(CES)的关系 云监控(Cloud
视图表 视图表(View)是一种虚拟表,它不存储实际的数据,而是根据定义的查询逻辑动态生成数据。视图通常用于简化复杂的查询,或者为不同的用户或应用提供定制化的数据视图。 视图表可以基于一个或多个表创建,提供了一种灵活的方式来展示数据,而不影响底层数据的存储和组织。 库表管理中表的列表页面,表类型为View的即代表视图表。
map_zip_with(map(K, V1), map(K, V2), function(K, V1, V2, V3)) 描述:通过将函数应用于具有相同键的一对值,将两个给定的map合并为一个map。对于仅在一个map中显示的键,将传递NULL作为缺少键的值。 SELECT ma
创建Flink Jar作业并运行。 创建Flink Jar作业,在应用程序、其他依赖文件选择步骤3导入Flink Jar,并指定主类。 主要参数的填写说明: 所属队列:选择Flink Jar作业运行的队列。 应用程序:自定义的程序包 主类:指定 类名:输入类名并确定类参数列表(参数间用空格分隔)。
TITION__”,当前Spark判断分区为空时,则会直接返回null,不返回具体的数据。 解决方案 登录DLI管理控制台,在“SQL编辑器”中,单击“设置”。 在参数设置中,添加参数“spark.sql.forcePartitionPredicatesOnPartitionedTable
d=-1,具体操作如下: 登录DLI管理控制台,单击“作业管理 > SQL作业”,在对应报错作业的“操作”列,单击“编辑”进入到SQL编辑器页面。 单击“设置”,在参数设置中选择“spark.sql.autoBroadcastJoinThreshold”参数,其值设置为“-1”。
"msg": "deleted" } 状态码 状态码如表3所示。 表3 状态码 状态码 描述 200 删除成功。 400 请求错误。 500 内部服务器错误。 错误码 调用接口出错后,将不会返回上述结果,而是返回错误码和错误信息,更多介绍请参见错误码。 父主题: Spark作业相关API
需要进行Clustering的文件组。 对于每个组使用strategyParams实例化适当的策略类(例如:sortColumns),然后应用该策略重写数据。 创建一个REPLACE提交,并更新HoodieReplaceCommitMetadata中的元数据。 如何执行Clustering
"state":"Success"} 状态码 状态码如表3所示。 表3 状态码 状态码 描述 200 查询成功。 400 请求错误。 500 内部服务器错误。 错误码 调用接口出错后,将不会返回上述结果,而是返回错误码和错误信息,更多介绍请参见错误码。 父主题: Spark作业相关API