云服务器内容精选

  • 弹性资源池界面添加队列 在左侧导航栏单击“弹性资源池”,可进入弹性资源池管理页面。 选择要操作的弹性资源池,在“操作”列,单击“添加队列”。 在“添加队列”界面,首先需要配置队列的基础配置,具体参数信息如下。 表1 弹性资源池添加队列基础配置 参数名 参数描述 名称 弹性资源池添加的队列名称。 类型 SQL队列:用于运行SQL作业。 通用队列:用于运行Spark作业 、Flink 作业。 执行引擎 如果队列类型选择为“SQL队列”,则可以选择队列引擎是:spark或者trino 企业项目 选择队列的企业项目。弹性资源池支持添加不同企业项目的队列资源。 企业项目是一种云资源管理方式,企业项目管理服务提供统一的云资源按项目管理,以及项目内的资源管理、成员管理。 关于如何设置企业项目请参考《企业管理用户指南》。 说明: 只有开通了企业管理服务的用户才显示该参数。 描述 弹性资源池添加队列的描述信息。 标签 使用标签标识云资源。包括标签键和标签值。如果您需要使用同一标签标识多种云资源,即所有服务均可在标签输入框下拉选择同一标签,建议在标签管理服务(TMS)中创建预定义标签。 如您的组织已经设定 DLI 的相关标签策略,则需按照标签策略规则为资源添加标签。标签如果不符合标签策略的规则,则可能会导致资源创建失败,请联系组织管理员了解标签策略详情。 具体请参考《标签管理服务用户指南》。 说明: 最多支持20个标签。 一个“键”只能添加一个“值”。 每个资源中的键名不能重复。 标签键:在输入框中输入标签键名称。 说明: 标签的键的最大长度为128个字符,标签的键可以包含任意语种字母、数字、空格和_ . : =+-@ ,但首尾不能含有空格,不能以_sys_开头。 标签值:在输入框中输入标签值。 说明: 标签值的最大长度为255个字符,标签的值可以包含任意语种字母、数字、空格和_ . : =+-@ ,但首尾不能含有空格。 单击“下一步”,在“扩缩容策略”界面配置当前队列在弹性资源池的扩缩容策略。 图1 添加队列时配置扩缩容策略 单击“新增”,可以添加不同优先级、时间段、“最小CU”和“最大CU”扩缩容策略。每条扩缩容策略的参数说明如下: 表2 扩缩容策略参数说明 参数名 参数描述 优先级 当前弹性资源池中的优先级数字越大表示优先级越高。当前优先级支持的范围为:1到100。 时间段 时间段设置仅支持整点,左侧为开始时间,右侧为结束时间。请注意以下说明: 时间区间包括开始时间,不包括结束时间即[开始时间, 结束时间)。 例如当前选择的时间段范围为:01--17,则表示当前扩缩容规则生效时间范围为[01,17)。 同一队列不同优先级的时间段区间不能有交集。 最小CU 当前扩缩容策略支持的最小CU数。 在全天的任意一个时间段内,弹性资源池中所有队列的最小CU数之和必须小于等于弹性资源池的最小CU数。 当队列的最小CUs小于16CUs时,在队列属性中设置的“最大spark driver实例数”和“最大预拉起spark driver实例数”不生效。了解队列属性设置。 最大CU 当前扩缩容策略支持的最大CU数。 在全天的任意一个时间段内,弹性资源池中任意一个队列的最大CU必须小于等于弹性资源池的最大CU。 首条扩缩容策略是默认策略,不能删除和修改时间段配置。 Flink作业不支持触发弹性资源池队列的自动扩缩容。 单击“确定”完成添加队列配置。弹性资源池队列添加完成后,可以参考调整弹性资源池中队列的扩缩容策略查看弹性资源池添加的所有队列配置和策略信息。
  • 约束限制 DLI服务预置了名为“default”的队列供用户体验,资源的大小按需分配。运行作业时按照用户每个作业的数据扫描量(单位为“GB”)收取计算费用。 队列类型: SQL类型队列:SQL队列支持提交Spark SQL作业。 通用队列:支持Spark程序、Flink SQL、Flink Jar作业。 不支持队列类型切换,如需使用其他队列类型,请重新购买新的队列。 不支持切换队列的计费模式。 队列不支持切换区域。 16CUs队列不支持扩容和缩容。 64CUs队列不支持缩容。 创建队列时,仅支持包年包月队列和按需专属队列选择跨AZ双活,且跨AZ的队列价格为单AZ模式下的2倍。 新创建的队列需要运行作业后才可进行扩缩容。 DLI队列不支持访问公网。 如有访问公网诉求请您参考配置DLI 队列与公网网络连通。
  • 创建 自定义镜像 以tensorflow为例,说明如何将tensorflow打包进镜像,生成安装了tensorflow的自定义镜像,在DLI作业中使用该镜像运行作业。 准备容器环境。 请参考安装容器引擎文档中的“安装容器引擎”章节。 使用root用户登录1容器镜像环境,执行以下命令获取DLI的基础镜像。 本示例使用Spark基础镜像为例,使用docker pull方式下载基础镜像到1中的容器镜像环境。 docker pull 基础镜像下载地址 基础镜像下载地址参考使用自定义镜像增强作业运行环境。 示例,Spark基础镜像下载: docker pull swr.xxx/dli-public/spark_general-x86_64:3.3.1-2.3.7.1720240419835647952528832.202404250955 连接 容器镜像服务 。 登录SWR管理控制台。 选择左侧导航栏的“总览”,单击页面右上角的“登录指令”,在弹出的页面中单击复制登录指令。 在安装容器引擎的虚拟机中执行上一步复制的登录指令。 创建容器镜像组织。如果已创建组织则本步骤可以忽略。 登录SWR管理控制台。 选择左侧导航栏的“组织管理”,单击页面右上角的“创建组织”。 填写组织名称,单击“确定”。 编写Dockerfile文件。 vi Dockerfile 具体内容参考如下,将tensorflow打包进镜像: ARG BASE_IMG=swr.xxx/dli-public/spark_general-x86_64:3.3.1-2.3.7.1720240419835647952528832.202404250955//请替换基础镜像的URL FROM ${BASE_IMG} as builder USER omm //注意要使用omm用户执行。 RUN set -ex && \ mkdir -p /home/omm/.pip && \ pip3 install tensorflow==1.13.1 \ --user --no-cache-dir --trusted-host pypi.cloudartifact.dgg.dragon.tools.huawei.com \ -i https://pypi.cloudartifact.dgg.dragon.tools.huawei.com/artifactory/api/pypi/cbu-pypi-public/simple 内容拷贝到基础镜像中 USER omm 其中,主要包含了以下步骤: 设置pip的可用仓库地址。 使用pip3安装tensorflow算法包。 将安装了算法包的临时镜像builder里的内容复制到基础镜像中(这一步主要是为了减小镜像体积),用于生成最终的自定义镜像。 利用Dockerfile生成自定义镜像。 镜像打包命令格式: docker build -t [自定义组织名称]/[自定义镜像名称]:[自定义镜像版本] --build-arg BASE_IMG=[DLI基础镜像地址] -f Dockerfile . DLI基础镜像地址为表1中的镜像地址。 示例: docker build -t mydli/spark:2.4 --build-arg BASE_IMG=swr.xxx/dli-public/spark_general-x86_64:3.3.1-2.3.7.1720240419835647952528832.202404250955 -f Dockerfile . 给自定义镜像打标签。 docker tag 6中的[自定义组织名称]/[自定义镜像名称]:[自定义镜像版本] [镜像仓库地址]/[组织名称]/[自定义镜像名称:自定义版本名称] 示例: docker tag mydli/spark:2.4 swr.xxx/testdli0617/spark:2.4.5.tensorflow 上传自定义镜像。 docker push [镜像仓库地址]/[组织名称]/[自定义镜像名称:自定义版本名称] 上述命令中的“[镜像仓库地址]/[组织名称]/[自定义镜像名称:自定义版本名称]”保持和7一致。 示例: docker push swr.xxx/testdli0617/spark:2.4.5.tensorflow 在DLI服务中提交Spark或者Flink jar作业时选择自定义镜像。 打开管理控制台的Spark作业或者Flink作业编辑页面,在自定义镜像列表中选择已上传并共享的镜像,运行作业,即可使用自定义镜像运行作业。 如果选择的镜像不是共享镜像,自定义镜像处会提示该镜像未授权,则需要授权后才可以使用。具体可以参考图3,提示处单击“立即授权”即可,填写其他作业执行参数后,再执行作业。 图2 在DLI Spark作业编辑页面,选择自定义镜像 图3 Spark作业镜像授权操作 图4 在DLI Flink jar作业编辑页面,选择自定义镜像 在使用API时,在作业参数中指定image参数,即可使用自定义镜像运行作业。Spark作业请参考《创建批处理作业》,Flink jar作业请参考《创建Flink Jar作业》。
  • 获取DLI基础镜像 表1 获取DLI基础镜像 镜像类型 架构 URL general镜像 X86 swr.cn-north-4.myhuaweicloud.com/dli-public/spark_general-x86_64:3.3.1-2.3.7.1720240419835647952528832.202404250955 general镜像 ARM swr.cn-north-4.myhuaweicloud.com/dli-public/spark_general-aarch64:3.3.1-2.3.7.1720240419835647952528832.202404250955 notebook镜像 X86 swr.cn-north-4.myhuaweicloud.com/dli-public/spark_notebook-x86_64:3.3.1-2.3.7.1720240419835647952528832.202404250955 notebook镜像 ARM swr.cn-north-4.myhuaweicloud.com/dli-public/spark_general-x86_64:3.3.1-2.3.7.1720240419835647952528832.202404250955
  • 相关操作 了解更多使用DLI委托获取访问凭据的开发指南请参考表1。 表1 DLI委托权限配置场景开发指南 类型 操作指导 说明 FLink作业场景 Flink Opensource SQL使用DEW管理访问凭据 Flink Opensource SQL场景使用DEW管理和访问凭据的操作指导,将Flink作业的输出数据写入到Mysql或DWS时,在connector中设置账号、密码等属性。 Flink Jar 使用DEW获取访问凭证读写OBS 访问OBS的AKSK为例介绍Flink Jar使用DEW获取访问凭证读写OBS的操作指导。 用户获取Flink作业委托临时凭证 DLI提供了一个通用接口,可用于获取用户在启动Flink作业时设置的委托的临时凭证。该接口将获取到的该作业委托的临时凭证封装到com.huaweicloud.sdk.core.auth.BasicCredentials类中。 本操作介绍获取Flink作业委托临时凭证的操作方法。 Spark作业场景 Spark Jar 使用DEW获取访问凭证读写OBS 访问OBS的AKSK为例介绍Spark Jar使用DEW获取访问凭证读写OBS的操作指导。 用户获取Spark作业委托临时凭证 本操作介绍获取Spark Jar作业委托临时凭证的操作方法。
  • 在DEW创建通用凭据 本例以配置RDS实例访问凭据为例,介绍在DEW保存凭据,并在DLI作业中的配置示例。 登录DEW管理控制台 选择“凭据管理”,进入“凭据管理”页面。 单击“创建凭据”,配置凭据基本信息 凭据名称:待创建凭据的名称。本例名称为secretInfo。 凭据值:配置RDS实例的用户名和密码。 第一行凭据值的键为MySQLUsername,值为RDS实例的用户名。 第二行凭据值的键为MySQLPassword,值为RDS实例的密码。 图1 设置凭据值 按需完成其他参数的配置后,单击“确定”保存凭据。 了解更多请参考创建通用凭据。
  • 在DLI作业中使用DEW中创建的凭据 以Flink作业为例介绍使用DEW凭据的方法。 参考Flink Opensource SQL使用DEW管理访问凭据的语法格式,在作业中配置凭据信息。 WITH ( 'connector' = 'jdbc', 'url' = 'jdbc:mysql://MySQLAddress:MySQLPort/flink',--其中url中的flink表示MySQL中orders表所在的数据库名 'table-name' = 'orders', 'username' = 'MySQLUsername', -- DEW服务中,名称为secretInfo,且版本号v1的通用凭证,定义凭证值的键MySQLUsername,它的值为用户的敏感信息。 'password' = 'MySQLPassword', -- DEW服务中,名称为secretInfo,且版本号v1的通用凭证,定义凭证值的键MySQLPassword,它的值为用户的敏感信息。 'sink.buffer-flush.max-rows' = '1', 'dew.endpoint'='kms.cn-xxxx.myhuaweicloud.com', --使用的DEW服务所在的endpoint信息 'dew.csms.secretName'='secretInfo', --DEW服务通用凭据的凭据名称 'dew.csms.decrypt.fields'='username,password', --其中username,password字段值,需要利用DEW凭证管理,进行解密替换。 'dew.csms.version'='v1' );
  • 步骤二:数据迁移 配置 CDM 数据源连接。 配置源端 CSS 的数据源连接。 登录CDM控制台,选择“集群管理”,选择已创建的CDM集群,在操作列选择“作业管理”。 在作业管理界面,选择“连接管理”,单击“新建连接”,连接器类型选择“ 云搜索服务 ”,单击“下一步”。 图1 创建 CS S数据源 配置源端CSS的数据源连接,具体参数配置如下。详细参数配置可以参考CDM上配置CSS连接。 表1 CSS数据源配置 参数 值 名称 自定义CSS数据源名称。例如当前配置为“source_css”。 Elasticsearch服务器列表 单击输入框旁边的“选择”按钮,选择当前CSS集群即可自动关联出来Elasticsearch服务器列表。 安全模式认证 如果所需连接的CSS集群在创建时开启了“安全模式”,该参数需设置为“是”,否则设置为“否”。 本示例选择为“否”。 图2 CDM配置CSS数据源 单击“保存”完成CSS数据源配置。 配置目的端DLI的数据源连接。 登录CDM控制台,选择“集群管理”,选择已创建的CDM集群,在操作列选择“作业管理”。 在作业管理界面,选择“连接管理”,单击“新建连接”,连接器类型选择“ 数据湖探索 (DLI)”,单击“下一步”。 图3 创建DLI数据源连接 配置目的端DLI数据源连接连接参数。具体参数配置可以参考在CDM上配置DLI连接。 图4 配置DLI数据源连接参数 配置完成后,单击“保存”完成DLI数据源配置。 创建CDM迁移作业。 登录CDM控制台,选择“集群管理”,选择已创建的CDM集群,在操作列选择“作业管理”。 在“作业管理”界面,选择“表/文件迁移”,单击“新建作业”。 在新建作业界面,配置当前作业配置信息,具体参数参考如下: 图5 新建CDM作业作业配置 作业名称:自定义数据迁移的作业名称。例如,当前定义为:css_to_dli。 源端作业配置,具体参考如下: 表2 源端作业配置 参数名 参数值 源连接名称 选择1.a中已创建的数据源名称。 索引 选择CSS集群中创建的Elasticsearch索引名。当前示例为CSS集群上创建索引并导入数据中创建的索引“my_test”。 索引名称只能全部小写,不能有大写。 类型 Elasticsearch的类型,类似关系数据库中的表名称。类型名称只能全部小写,不能有大写。当前示例为:“_doc”。 更多其他参数说明可以参考:CDM配置CSS源端参数。 目的端作业配置,具体参考如下: 表3 目的端作业配置 参数名 参数值 目的连接名称 选择1.b已创建的DLI数据源连接。 资源队列 选择已创建的DLI SQL类型的队列。 数据库名称 选择DLI下已创建的数据库。当前示例为在DLI上创建数据库和表中创建的数据库名,即为“testdb”。 表名 选择DLI下已创建的表名。当前示例为在DLI上创建数据库和表中创建的表名,即为“tablecss”。 导入前清空数据 选择导入前是否清空目的表的数据。当前示例选择为“否”。 如果设置为是,任务启动前会清除目标表中数据。 详细的参数配置可以参考:CDM配置DLI目的端参数。 单击“下一步”,进入到字段映射界面,CDM会自动匹配源和目的字段。 如果字段映射顺序不匹配,可通过拖拽字段调整。 如果选择在目的端自动创建类型,这里还需要配置每个类型的字段类型、字段名称。 CDM支持迁移过程中转换字段内容,详细请参见字段转换。 图6 字段映射 单击“下一步”配置任务参数,一般情况下全部保持默认即可。 该步骤用户可以配置如下可选功能: 作业失败重试:如果作业执行失败,可选择是否自动重试,这里保持默认值“不重试”。 作业分组:选择作业所属的分组,默认分组为“DEFAULT”。在CDM“作业管理”界面,支持作业分组显示、按组批量启动作业、按分组导出作业等操作。 是否定时执行:如果需要配置作业定时自动执行,请参见配置定时任务。这里保持默认值“否”。 抽取并发数:设置同时执行的抽取任务数。这里保持默认值“1”。 是否写入脏数据:如果需要将作业执行过程中处理失败的数据、或者被清洗过滤掉的数据写入OBS中,以便后面查看,可通过该参数配置,写入脏数据前需要先配置好OBS连接。这里保持默认值“否”即可,不记录脏数据。 单击“保存并运行”,回到作业管理界面,在作业管理界面可查看作业执行进度和结果。 图7 迁移作业进度和结果查询
  • 前提条件 已创建DLI的SQL队列。创建DLI队列的操作可以参考创建DLI队列。 创建DLI队列时队列类型需要选择为“SQL队列”。 已创建Elasticsearch类型的CSS集群。具体创建CSS集群的操作可以参考创建CSS集群。 本示例创建的CSS集群版本为:7.6.2,集群为非安全集群。 已创建CDM迁移集群。创建CDM集群的操作可以参考创建CDM集群。 如果目标数据源为云下的数据库,则需要通过公网或者专线打通网络。通过公网互通时,需确保CDM集群已绑定EIP、CDM云上安全组出方向放通云下数据源所在的主机、数据源所在的主机可以访问公网且防火墙规则已开放连接端口。 数据源为云上的CSS服务时,网络互通需满足如下条件: i. CDM集群与云上服务处于不同区域的情况下,需要通过公网或者专线打通网络。通过公网互通时,需确保CDM集群已绑定EIP,数据源所在的主机可以访问公网且防火墙规则已开放连接端口。 ii. CDM集群与云上服务同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通;如果同虚拟私有云但是子网或安全组不同,还需配置路由规则及安全组规则。 配置路由规则请参见如何配置路由规则章节,配置安全组规则请参见如何配置安全组规则章节。 iii. 此外,您还必须确保该云服务的实例与CDM集群所属的企业项目必须相同,如果不同,需要修改工作空间的企业项目。 本示例CDM集群的虚拟私有云、子网以及安全组和创建的CSS集群保持一致。
  • 前提条件 配置前,请先购买OBS桶或并行文件系统。大数据场景推荐使用并行文件系统,并行文件系统(Parallel File System)是 对象存储服务 (Object Storage Service,OBS)提供的一种经过优化的高性能文件系统,提供毫秒级别访问时延,以及TB/s级别带宽和百万级别的IOPS,能够快速处理高性能计算(HPC)工作负载。 并行文件系统的详细介绍和使用说明,请参见《并行文件系统特性指南》。
  • 弹性资源池约束与限制 不支持切换弹性资源池的计费模式。 弹性资源池不支持切换区域。 按需计费的弹性资源池默认勾选专属资源模式,自创建起按自然小时收费。 Flink 1.10及其以上版本的作业支持在弹性资源池运行。 弹性资源池网段设置后不支持更改。 弹性资源池关联队列: 仅支持关联按需计费模式的队列(包括专属队列)。 队列和弹性资源池状态正常,资源未被冻结。 当前仅支持包年包月计费模式的弹性资源池进行规格变更。 仅支持查看30天以内的弹性资源池扩缩容历史。 弹性资源池不支持访问公网。 如有访问公网诉求请您参考配置DLI 队列与公网网络连通。 弹性资源池CU设置、弹性资源池中添加/删除队列、修改弹性资源池中队列的扩缩容策略、系统自动触发弹性资源池扩缩容时都会引起弹性资源池CU的变化,部分情况下系统无法保证按计划扩容/缩容至目标CUs: 弹性资源池扩容时,可能会由于物理资源不足导致弹性资源池无法扩容到设定的目标大小。 弹性资源池缩容时,系统不保证将队列资源完全缩容到设定的目标大小。 在执行缩容任务时,系统会先检查资源使用情况,判断是否存在缩容空间,如果现有资源无法按照最小缩容步长执行缩容任务,则弹性资源池可能缩容不成功,或缩容一部分规格的情况。 因资源规格不同可能有不同的缩容步长,通常是16CUs、32CUs、48CUs、64CUs等。 示例:弹性资源池规格为192CUs,资源池中的队列执行作业占用了68CUs,计划缩容至64CUs。 执行缩容任务时,系统判断剩余124CUs,按64CUs的缩容步长执行缩容任务,剩余60CUs资源无法继续缩容,因此弹性资源池执行缩容任务后规格为128CUs。
  • 监控指标 表1 数据湖 探索服务支持的监控指标 指标ID 指标名称 指标含义 取值范围 测量对象 监控周期(原始指标) queue_cu_num 队列CU使用量 展示用户队列申请的CU数 ≥0 队列 5分钟 queue_job_launching_num 提交中作业数 展示用户队列中状态为提交中的作业数。 ≥0 队列 5分钟 queue_job_running_num 运行中作业数 展示用户队列中状态为运行中的作业数。 ≥0 队列 5分钟 queue_job_succeed_num 已完成作业数 展示用户队列中状态为已完成的作业数。 ≥0 队列 5分钟 queue_job_failed_num 已失败作业数 展示用户队列中状态为已失败的作业数。 ≥0 队列 5分钟 queue_job_cancelled_num 已取消作业数 展示用户队列中状态为已取消的作业数。 ≥0 队列 5分钟 queue_alloc_cu_num 队列CU分配量 展示用户队列的CU分配情况。 ≥0 队列 5分钟 queue_min_cu_num 队列最小CU 展示用户队列中的最小CU。 ≥0 队列 5分钟 queue_max_cu_num 队列最大CU 展示用户队列中的最大CU。 ≥0 队列 5分钟 queue_priority 队列优先级 展示用户队列的优先级。 1~100 队列 5分钟 queue_cpu_usage 队列CPU使用率 展示用户队列的CPU使用率。 0~100 队列 5分钟 queue_disk_usage 队列磁盘使用率 展示用户队列的磁盘使用率。 0~100 队列 5分钟 queue_disk_used 队列磁盘使用率最大值 展示用户队列的磁盘使用率的最大值。 0~100 队列 5分钟 queue_mem_usage 队列内存使用率 展示用户队列的内存使用率。 0~100 队列 5分钟 queue_mem_used 队列内存使用量 展示用户队列的内存使用量。 ≥0 队列 5分钟 flink_read_records_per_second Flink作业数据输入速率 展示用户Flink作业的数据输入速率,供监控和调试使用。 ≥0 Flink作业 10秒钟 flink_write_records_per_second Flink作业数据输出速率 展示用户Flink作业的数据输出速率,供监控和调试使用。 ≥0 Flink作业 10秒钟 flink_read_records_total Flink作业数据输入总数 展示用户Flink作业的数据输入总数,供监控和调试使用。 ≥0 Flink作业 10秒钟 flink_write_records_total Flink作业数据输出总数 展示用户Flink作业的数据输出总数,供监控和调试使用。 ≥0 Flink作业 10秒钟 flink_read_bytes_per_second Flink作业字节输入速率 展示用户Flink作业每秒输入的字节数。 ≥0 Flink作业 10秒钟 flink_write_bytes_per_second Flink作业字节输出速率 展示用户Flink作业每秒输出的字节数。 ≥0 Flink作业 10秒钟 flink_read_bytes_total Flink作业字节输入总数 展示用户Flink作业字节的输入总数。 ≥0 Flink作业 10秒钟 flink_write_bytes_total Flink作业字节输出总数 展示用户Flink作业字节的输出总数。 ≥0 Flink作业 10秒钟 flink_cpu_usage Flink作业CPU使用率 展示用户Flink作业的CPU使用率。 0~100 Flink作业 10秒钟 flink_mem_usage Flink作业内存使用率 展示用户Flink作业的内存使用率。 0~100 Flink作业 10秒钟 flink_max_op_latency Flink作业最大算子延迟 展示用户Flink作业的最大算子延迟时间,单位ms。Flink时间模型具体可以参考配置时间模型。 ≥0 Flink作业 10秒钟 flink_max_op_backpressure_level Flink作业最大算子反压 展示用户Flink作业的最大算子反压值,数值越大,反压越严重。 0:表示OK 50:表示Low 100:表示High 0~100 Flink作业 10秒钟 elastic_resource_pool_cpu_usage 弹性资源池CPU使用率 展示用户弹性资源池的CPU使用率。 0~100 弹性资源池 5分钟 elastic_resource_pool_mem_usage 弹性资源池内存使用率 展示用户弹性资源池的内存使用率。 0~100 弹性资源池 5分钟 elastic_resource_pool_disk_usage 弹性资源池磁盘使用率 展示用户弹性资源池的磁盘使用率。 0~100 弹性资源池 5分钟 elastic_resource_pool_disk_max_usage 弹性资源池磁盘使用率最大值 展示用户弹性资源池的磁盘使用率最大值。 0~100 弹性资源池 5分钟 elastic_resource_pool_cu_num 弹性资源池CU使用量 展示用户弹性资源池的CU使用量。 ≥0 弹性资源池 5分钟 elastic_resource_pool_alloc_cu_num 弹性资源池CU分配量 展示用户弹性资源池的CU分配情况。 ≥0 弹性资源池 5分钟 elastic_resource_pool_min_cu_num 弹性资源池最小CU 展示用户弹性资源池的最小CU。 ≥0 弹性资源池 5分钟 elastic_resource_pool_max_cu_num 弹性资源池最大CU 展示用户弹性资源池的最大CU。 ≥0 弹性资源池 5分钟
  • 前提条件 配置前,请先购买OBS桶或并行文件系统。大数据场景推荐使用并行文件系统,并行文件系统(Parallel File System)是对象存储服务(Object Storage Service,OBS)提供的一种经过优化的高性能文件系统,提供毫秒级别访问时延,以及TB/s级别带宽和百万级别的IOPS,能够快速处理高性能计算(HPC)工作负载。 并行文件系统的详细介绍和使用说明,请参见《并行文件系统特性指南》。
  • 后续指引 完成TPC-H样例模板开发并提交Spark SQL作业操作后,如果您想了解更多关于Spark SQL作业相关操作,建议您参考以下指引阅读。 分类 文档 说明 界面操作 SQL编辑器 提供执行Spark SQL语句操作的界面指导,包含SQL编辑器界面基本功能介绍、快捷键以及使用技巧等说明。 Spark SQL作业管理 提供Spark SQL作业管理界面功能介绍。 Spark SQL模板管理 DLI支持定制模板或将正在使用的SQL语句保存为模板,便捷快速的执行SQL操作。 开发指导 Spark SQL语法参考 提供Spark SQL数据库、表、分区、导入及导出数据、自定义函数、内置函数等语法说明和样例指导。 使用Spark作业访问DLI元数据 提供Spark SQL作业开发的操作指引和样例代码参考。 Spark SQL 相关API 提供Spark SQL相关API的使用说明。
  • Flink作业概述 DLI支持的两种类型的Flink作业: Flink OpenSource SQL类型作业: 完全兼容社区版的Flink,确保了作业可以在这些Flink版本上无缝运行。 在社区版Flink的基础上,DLI扩展了Connector的支持,新增了Redis、DWS、以及DIS作为数据源类型。为用户提供了更多的数据源选择,使得数据集成更加灵活和方便。 Flink OpenSource SQL作业适合通过SQL语句来定义和执行流处理逻辑的场景,简化了流处理的复杂性,使得开发者可以更加专注于业务逻辑的实现。 创建Flink OpenSource SQL请参考创建Flink OpenSource SQL作业。 Flink Jar作业: DLI允许用户提交编译为Jar包的Flink作业,提供了更高的灵活性和自定义能力,适合需要进行复杂数据处理的场景。 当社区版Flink提供的Connector不能满足特定需求时,用户可以通过Jar作业来实现自定义的Connector或数据处理逻辑。 适合需要实现UDF(用户定义函数)或特定库集成的场景,用户可以利用Flink的生态系统来实现高级的流处理逻辑和状态管理。 创建Flink Jar作业请参考创建Flink Jar作业。 父主题: 使用DLI提交Flink作业