检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建DLI表关联DDS 功能描述 使用CREATE TABLE命令创建DLI表并关联DDS上已有的collection。 Spark跨源开发场景中直接配置跨源认证信息存在密码泄露的风险,优先推荐您使用DLI提供的跨源认证方式。 跨源认证简介及操作方法请参考跨源认证简介。 前提条件
怎样将老版本的Spark队列切换成通用型队列 当前DLI服务包括“SQL队列”和“通用队列”两种队列类型。 其中,“SQL队列”用于运行SQL作业,“通用队列”兼容老版本的Spark队列,用于运行Spark作业和Flink作业。 通过以下步骤,可以将老版本的“Spark队列”转换为新的“通用队列”。
流表JOIN 流与表进行连接操作,从表中查询并补全流字段。目前支持连接RDS表和DCS服务的Redis表。通过ON条件描述查询的Key,并补全表结构的Value字段。 RDS表的数据定义语句请参见创建RDS表。 Redis表的数据定义语句请参见创建Redis表。 语法格式 1 2
创建DLI表关联DDS 功能描述 使用CREATE TABLE命令创建DLI表并关联DDS上已有的collection。 Spark跨源开发场景中直接配置跨源认证信息存在密码泄露的风险,优先推荐您使用DLI提供的跨源认证方式。 跨源认证简介及操作方法请参考跨源认证简介。 前提条件
下载JDBC驱动包 操作场景 JDBC用于连接DLI服务,您可以在Maven获取JDBC安装包,或在DLI管理控制台下载JDBC驱动文件。 (推荐)方式一:在Maven获取JDBC安装包 单击DLI JDBC Driver中获取最新版本的JDBC安装包。 JDBC版本2.X版本功
java样例代码 开发说明 本样例只适用于MRS的OpenTSDB。 前提条件 在DLI管理控制台上已完成创建跨源连接并绑定队列。具体操作请参考《数据湖探索用户指南》。 认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。
计费样例 计费场景 某公司用户A申请了256CUs的弹性资源池,并将1TB数据存放在DLI表中。该公司想要了解采用哪种计费模式才是性价比最优的方式。 数据湖探索服务目前支持三种作业:SQL作业,Flink作业和Spark作业。SQL作业的计费包括存储计费和计算计费,Flink作业和Spark作业的计费只有计算计费。
创建消息通知主题 操作场景 确定创建消息通知主题后,您可在消息通知服务的“主题管理”页面中,对相应的主题添加订阅,选择不同方式(例如短信或者邮件等)进行订阅。订阅成功后,如果作业失败,则系统将会自动发送消息到您指定的订阅终端。 如果作业提交1分钟内立即失败,通常不会触发消息通知。
java样例代码 开发说明 前提条件 在DLI管理控制台上已完成创建跨源连接并绑定队列。具体操作请参考《数据湖探索用户指南》。 认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 代码实现 导入依赖 涉及到的mvn依赖库
怎样排查DLI计费异常? 如果您在使用DLI服务的过程中,感觉计费有异常,可按照以下步骤进行排查: 包周期资源与预付费资源,本节操作重点介绍怎样排查按需资源使用中的扣费异常。 SQL作业 登录DLI管理控制台。 进入“作业管理”>“SQL作业”页面。 查看需要确认的作业详情,确认在扣费时间段内是否有以下操作:
如何在DLI中运行复杂PySpark程序? 数据湖探索(DLI)服务对于PySpark是原生支持的。 对于数据分析来说Python是很自然的选择,而在大数据分析中PySpark无疑是不二选择。对于JVM语言系的程序,通常会把程序打成Jar包并依赖其他一些第三方的Jar,同样的Py
字符码不一致导致数据乱码怎么办? 在DLI执行作业时,为了避免因字符编码不一致导致的乱码问题,建议您统一数据源的编码格式。 DLI服务只支持UTF-8文本格式,因此在执行创建表和导入操作时,用户的数据需要以UTF-8编码。 在将数据导入DLI之前,确保源数据文件(如CSV、JSO
实时聚类 聚类算法是非监督算法中非常典型的一类算法,经典的K-Means算法通过提前确定类别数目,计算数据点之间的距离来分类。对于离线静态数据集,我们可以依赖领域中知识来确定类别数目,运行K-Means算法可以取得比较好的聚类效果。但是对于在线实时流数据,数据是在不断变化和演进,
数据迁移与传输方式概述 导入数据至OBS DLI支持在不迁移数据的情况下,直接访问OBS中存储的数据进行查询分析。 您只需将本地数据导入OBS即可开始使用DLI进行数据分析。 导入数据的具体操作请参考上传对象。 迁移数据至DLI 为了将分散在不同系统中的数据迁移到DLI,确保数据
认证证书 合规证书 华为云服务及平台通过了多项国内外权威机构(ISO/SOC/PCI等)的安全合规认证,用户可自行申请下载合规资质证书。 图1 合规证书下载 资源中心 华为云还提供以下资源来帮助用户满足合规性要求,具体请查看资源中心。 图2 资源中心 销售许可证&软件著作权证书
实时聚类 聚类算法是非监督算法中非常典型的一类算法,经典的K-Means算法通过提前确定类别数目,计算数据点之间的距离来分类。对于离线静态数据集,我们可以依赖领域中知识来确定类别数目,运行K-Means算法可以取得比较好的聚类效果。但是对于在线实时流数据,数据是在不断变化和演进,
库表管理标签管理 标签管理 标签是用户自定义的、用于标识云资源的键值对,它可以帮助用户对云资源进行分类和搜索。标签由标签“键”和标签“值”组成。如果用户在其他云服务中使用了标签,建议用户为同一个业务所使用的云资源创建相同的标签键值对以保持一致性。 如您的组织已经设定DLI的相关标
创建DLI委托(废弃) 功能介绍 该API用于创建DLI用户委托。 当前接口已废弃,不推荐使用。 调试 您可以在API Explorer中调试该接口。 URI URI格式: POST /v2/{project_id}/agency 参数说明 表1 URI参数 参数名称 是否必选 参数类型
java样例代码 开发说明 redis只支持增强型跨源。只能使用包年包月队列。 前提条件 在DLI管理控制台上已完成创建增强跨源连接,并绑定包年包月队列。具体操作请参考《数据湖探索用户指南》。 认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或
导入Flink作业 功能介绍 该API用于导入Flink作业数据。 调试 您可以在API Explorer中调试该接口。 URI URI格式 POST /v1.0/{project_id}/streaming/jobs/import 参数说明 表1 URI参数说明 参数名称 是否必选