检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
荐、信用评级、品牌监控、用户行为预测提供高质量的信息。 流程指导 使用DLI进行电商数据分析的操作过程主要包括以下步骤: 步骤1:上传数据。将数据上传到对象存储服务OBS,为后面使用DLI完成数据分析做准备。 步骤2:分析数据。使用DLI对待分析的数据进行查询。 具体样例数据及详细SQL语句可以通过数据包进行下载。
开始进行如下操作前,请务必参考准备工作完成必要操作。 表1 使用DLI提交Flink Jar作业的操作流程 操作步骤 说明 步骤1:开发Jar包并上传数据至OBS 准备Flink Jar作业程序包并上传至OBS。 步骤2:购买弹性资源池并添加队列 创建提交Flink作业所需的计算资源。 步骤3:使用DEW管理访问凭据
CU数*小时数。 步骤1:创建并上传数据 创建CSV数据,例如,如图2所示test.csv: 图2 创建test.csv文件 在OBS上建桶obs-csv-parquet,并将test.csv文件上传至OBS,如图3所示: 图3 上传CSV数据至OBS 在OBS上创建一个新的桶o
选择作业运行时使用的队列资源。 应用程序 选择Jar作业程序包。 Jar包的管理方式: 上传OBS管理程序包:提前将对应的jar包上传至OBS桶中。并在此处选择对应的OBS路径。 上传DLI管理程序包:提前将对应的jar包上传至OBS桶中,并在DLI管理控制台的“数据管理>程序包管理”中创建程序包,具体操作请参考创建DLI程序包。
Jar作业只能运行在通用队列上。 图2 选择队列 上传Jar包。 Flink版本需要和用户Jar包指定的Flink版本保持一致。 图3 上传Jar包 表2 参数说明 名称 描述 应用程序 用户自定义的程序包。在选择程序包之前需要将对应的Jar包上传至OBS桶中,并在“数据管理>程序包管理”中创建程序包,,具体请参考创建程序包。
用户自定义UDF文件,在后续作业中可以调用插入Jar包中的自定义函数。 UDF Jar包的管理方式: 上传OBS管理程序包:提前将对应的jar包上传至OBS桶中。并在此处选择对应的OBS路径。 上传DLI管理程序包:提前将对应的jar包上传至OBS桶中,并在DLI管理控制台的“数据管理>程序包管理”中创建程序包,具体操作请参考创建DLI程序包。
开始进行如下操作前,请务必参考准备工作完成必要操作。 表1 使用DLI提交Spark Jar作业的操作流程 操作步骤 说明 步骤1:上传数据至OBS 准备Spark Jar作业程序包并上传至OBS。 步骤2:创建弹性资源池并添加队列 创建提交Spark Jar作业所需的计算资源。 步骤3:使用DEW管理访问凭证
'TableName'='TABLE_IN_HBASE', 'RowKey'='ATTR1', 'Cols'='ATTR2:CF1.C1, ATTR3:CF1.C2'); 组合RowKey 1 2 3 4 5 6 7 8 9 CREATE TABLE [IF NOT EXISTS]
数据迁移与传输方式概述 导入数据至OBS DLI支持在不迁移数据的情况下,直接访问OBS中存储的数据进行查询分析。 您只需将本地数据导入OBS即可开始使用DLI进行数据分析。 导入数据的具体操作请参考上传对象。 迁移数据至DLI 为了将分散在不同系统中的数据迁移到DLI,确保数据
在“集群管理”页面中,单击对应的集群名称,进入“基本信息”页面。 单击“安全模式”后的下载证书,下载CSS安全集群的证书。 将认证凭证上传到OBS桶。 关于如何创建OBS桶并上传数据,请参考《对象存储服务快速入门》。 创建跨源认证。 登录DLI管理控制台。 选择“跨源管理 > 跨源认证”。 单击“创建”。
选择需要执行的程序包。包括“.jar”和“.py”两种类型。 Jar包的管理方式: 上传OBS管理程序包:提前将对应的jar包上传至OBS桶中。并在此处选择对应的OBS路径。 上传DLI管理程序包:提前将对应的jar包上传至OBS桶中,并在DLI管理控制台的“数据管理>程序包管理”中创建程序包,具体操作请参考创建DLI程序包。
作业状态。状态可能为运行中(RUNNING)、规格变更中(SCALING)、提交中(LAUNCHING)、已完成(FINISHED)、已失败(FAILED)、已取消(CANCELLED)。 sub_job_id 否 Integer 正在运行的子作业ID,如果作业还没开始运行或者运行结束,则子作业ID可能为空。
PyFile:用户Python文件 File:用户文件 ModelFile:用户AI模型文件 JAR OBS路径 选择对应程序包的OBS路径。 说明: 程序包需提前上传至OBS服务中保存。 只支持选择文件。 Flink Jar所在的OBS路径 分组名称 选择“已有分组”:可选择已有的分组。 选择“创建新分组”:可输入自定义的组名称。
Spark作业使用咨询 Spark如何将数据写入到DLI表中 通用队列操作OBS表如何设置AK/SK 如何查看DLI Spark作业的实际资源使用情况 将Spark作业结果存储在MySQL数据库中,缺少pymysql模块,如何使用python脚本访问MySQL数据库? 如何在DLI中运行复杂PySpark程序?
Manager界面。 选择“系统 > 权限 > 用户”。 单击“更多 > 下载认证凭据”,保存后解压得到Truststore文件。 上传认证凭证到OBS桶。 关于如何创建OBS桶并上传数据,请参考《对象存储服务快速入门》。 创建跨源认证。 登录DLI管理控制台。 选择“跨源管理 > 跨源认证”。 单击“创建”。
权限 > 用户”。 单击“更多 > 下载认证凭据”,保存后解压得到用户的keytab文件与krb5.conf文件。 上传认证凭证到OBS桶。 关于如何创建OBS桶并上传数据,请参考《对象存储服务快速入门》。 创建跨源认证。 登录DLI管理控制台。 选择“跨源管理 > 跨源认证”。 单击“创建”。
单击操作列“编辑”。 编辑“应用程序”,选择1上传的OBS地址。 图11 配置应用程序 Spark 3.3以下版本: 分别上传Jar包到OBS和DLI下。 登录OBS控制台,将生成的Jar包文件上传到OBS路径下。 将Jar包文件上传到DLI的程序包管理中,方便后续统一管理。 登录DLI管理控制台,单击“数据管理
Flink Jar作业类 Flink Jar作业是否支持上传配置文件,要如何操作? Flink Jar 包冲突,导致作业提交失败 Flink Jar作业访问DWS启动异常,提示客户端连接数太多错误 Flink Jar作业运行报错,报错信息为Authentication failed
jar作业时选择自定义镜像。 打开管理控制台的Spark作业或者Flink作业编辑页面,在自定义镜像列表中选择已上传并共享的镜像,运行作业,即可使用自定义镜像运行作业。 如果选择的镜像不是共享镜像,自定义镜像处会提示该镜像未授权,则需要授权后才可以使用。具体可以参考图3,提示处单击“立即授权”即可,填写其他作业执行参数后,再执行作业。
的权限自动取消,系统将无法正常获取IAM用户相关信息、或影响访问跨源所需的网络资源、无法访问SMN服务发送通知消息。 约束限制 服务授权需要主账号或者用户组admin中的子账号进行操作。 DLI服务授权需要区分项目,请在每个需要新委托的项目分别执行更新委托操作,即切换至对应项目后,再按照本节的操作更新委托权限。