检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备项 说明 操作系统 Windows系统,支持Windows7以上版本。 安装JDK JDK使用1.8版本。 安装和配置IntelliJ IDEA IntelliJ IDEA为进行应用开发的工具,版本要求使用2019.1或其他兼容版本。 安装Maven 开发环境的基本配置。用于项目管理,贯穿软件开发生命周期。
本例以配置RDS实例访问凭据为例,介绍在DEW保存凭据,并在DLI作业中的配置示例。 登录DEW管理控制台 选择“凭据管理”,进入“凭据管理”页面。 单击“创建凭据”,配置凭据基本信息 凭据名称:待创建凭据的名称。本例名称为secretInfo。 凭据值:配置RDS实例的用户名和密码。 第一行凭据值的键为MySQLU
huffle数据远大于其他Task的数据,导致该任务耗时时间变长。 图10 数据倾斜示例图 数据倾斜原因和解决: Shuffle的数据倾斜基本是由于join中的key值数量不均衡导致。 对join连接条件进行group by 和count,统计每个连接条件的key值的数量。示例如下:
前提条件 配置前,请先购买OBS桶或并行文件系统。大数据场景推荐使用并行文件系统,并行文件系统(Parallel File System)是对象存储服务(Object Storage Service,OBS)提供的一种经过优化的高性能文件系统,提供毫秒级别访问时延,以及TB/s级别带
前提条件 配置前,请先购买OBS桶或并行文件系统。大数据场景推荐使用并行文件系统,并行文件系统(Parallel File System)是对象存储服务(Object Storage Service,OBS)提供的一种经过优化的高性能文件系统,提供毫秒级别访问时延,以及TB/s级别带
本章节介绍的分区添加命令生成分区元数据信息,后续即可根据对应分区列进行查询等操作。 本章节重点介绍使用ALTER TABLE命令添加分区的基本操作和使用说明。 语法格式 1 2 3 4 5 ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION
前提条件 配置前,请先购买OBS桶或并行文件系统。大数据场景推荐使用并行文件系统,并行文件系统(Parallel File System)是对象存储服务(Object Storage Service,OBS)提供的一种经过优化的高性能文件系统,提供毫秒级别访问时延,以及TB/s级别带
dli_management_agency 系统默认委托 DLI系统委托,用于将操作权限委托给DLI服务,让DLI服务以您的身份使用其他云服务,代替您进行一些资源运维工作。该委托包含跨源操作、消息通知、用户授权操作所需的权限。详细委托包含的权限请参考表2 dli_data_clean_agency 系统默认委托,需用户自行授权
使用的索引类型,默认为布隆过滤器。可能的选项是[BLOOM | GLOBAL_BLOOM | SIMPLE | GLOBAL_SIMPLE] 。 布隆过滤器消除了对外部系统的依赖,并存储在Parquet数据文件的页脚中。 BLOOM hoodie.index.bloom.num_entries 存储在布隆过滤器中的条目数。
<key1>=<val1>;<key2>=<val2>… 说明: endpoint指DLI的终端节点,具体请参考地区和终端节点。 projectId指项目编号,从华为云“基本信息>我的凭证”页面获取项目编号。 “?”后面接其他配置项,每个配置项以“key=value”的形式列出,配置项之间以“;”隔开,详见表3
用。 作用范围:项目级服务。 系统角色 无 表2列出了DLI SQL常用操作与系统权限的授权关系,您可以参照该表选择合适的系统策略。 更多SQL语法赋权请参考《数据湖探索SQL语法参考》> 《数据控制》>《权限列表》章节。 表2 DLI常用操作与系统权限的关系 资源 操作 说明 DLI
Python SDK环境配置 操作场景 在进行二次开发时,要准备的开发环境如表1所示。 表1 开发环境 准备项 说明 操作系统 Windows系统,推荐Windows 7及以上版本。 安装Python Python版本建议使用2.7.10和3.4.0以上版本,需要配置Visual
资源进行指定的管理操作。 了解DLI SQL常用操作与系统策略的授权关系,请参考常用操作与系统权限关系。 表1 DLI系统权限 系统角色/策略名称 描述 类别 依赖关系 DLI FullAccess 数据湖探索所有权限。 系统策略 该角色有依赖,需要在同项目中勾选依赖的角色: 创建跨源连接:VPC
在DEW创建通用凭证。详细操作请参考创建通用凭据。 登录DEW管理控制台 选择“凭据管理”,进入“凭据管理”页面。 单击“创建凭据”。配置凭据基本信息 本例配置Mysql的凭据值: "MySQLUsername":"demo" "MySQLPassword":"*******",其中
在DEW创建通用凭证。详细操作请参考创建通用凭据。 登录DEW管理控制台 选择“凭据管理”,进入“凭据管理”页面。 单击“创建凭据”。配置凭据基本信息 DLI Spark jar作业编辑界面设置作业参数。 Spark参数: spark.hadoop.fs.obs.bucket.USER_BUCKET_NAME
Strings 用户已上传到DLI资源管理系统的类型为file的资源包名。也支持指定OBS路径,例如:obs://桶名/包名。 modules Array of Strings 依赖的系统资源模块名,具体模块名可通过查询组内资源包(废弃)接口查看。 DLI系统提供了用于执行跨源作业的依赖模块,各个不同的服务对应的模块列表如下:
队列名称不区分大小写,系统会自动转换为小写。 请求消息 无请求参数。 响应消息 表2 响应参数 参数名称 是否必选 参数类型 说明 is_success 否 Boolean 请求执行是否成功。“true”表示请求执行成功。 message 否 String 系统提示信息,执行成功时,信息可能为空。
并覆盖原有的 catalog function 。 TEMPORARY SYSTEM 创建一个没有数据库命名空间的临时系统 catalog function ,并覆盖系统内置的函数。 IF NOT EXISTS 如果该函数已经存在,则不会进行任何操作。 LANGUAGE JAVA|SCALA
权限管理 权限管理概述 DLI自定义策略 DLI资源 DLI请求条件 常用操作与系统权限关系
IEF相关API(废弃) 创建IEF消息通道(废弃) 边缘Flink作业状态上报(废弃) 边缘Flink作业Action回调(废弃) IEF系统事件上报(废弃) 父主题: 历史API