检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Base搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,快速发现数据价值。HBase支持消息数据、报表数据、推荐类数据、风控类数据、日志数据、订单数据等结构化、半结构化的KeyValue数据存储。 利用DLI,用户可方便地将海量数据高速、低时延写入HBase。
Base搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,快速发现数据价值。HBase支持消息数据、报表数据、推荐类数据、风控类数据、日志数据、订单数据等结构化、半结构化的KeyValue数据存储。 利用DLI,用户可方便地将海量数据高速、低时延写入HBase。
主题管理 在对应主题的“操作”列中,单击“添加订阅”,选择“协议”,确定订阅方式。 如果选择“短信”协议,需要在“订阅终端”中填写接收确认短信的手机号码。 如果选择“邮件”协议,需要在“订阅终端”中填写接收确认邮件的邮箱地址。 更多信息,请参考《消息通知服务用户指南》中《添加订阅》章节。
在安装和使用Java SDK前,确保您已经完成开发环境的基本配置。 Java SDK要求使用JDK1.8或更高版本。考虑到后续版本的兼容性,推荐使用1.8版本。 在Java运行环境配置好的情况下,打开windows的命令行,执行命令Java -version,可以检查版本信息。 操作步骤
导入数据(废弃) 功能介绍 该API用于将数据从文件导入DLI或OBS表,目前仅支持将OBS上的数据导入DLI或OBS中。 当前接口已废弃,不推荐使用。 该API为异步操作。 导入数据时,可选择已存在的OBS桶路径或新建OBS桶路径,但只能指定一个OBS桶路径。 若需新建OBS桶,需遵守以下命名规则:
DataSource语法和Hive语法主要区别在于支持的表数据存储格式范围、支持的分区数等有差异,详细请参考语法格式和注意事项说明。 推荐使用OBS并行文件系统进行存储。并行文件系统是一种高性能文件系统,提供毫秒级别访问时延,TB/s级别带宽和百万级别的IOPS,适用于大数据交互式分析场景。
使用Hive语法创建OBS表。DataSource语法和Hive语法主要区别在于支持的表数据存储格式范围、支持的分区数等有差异,详细请参考语法格式和注意事项说明。 推荐使用OBS并行文件系统进行存储。并行文件系统是一种高性能文件系统,提供毫秒级别访问时延,TB/s级别带宽和百万级别的IOPS,适用于大数据交互式分析场景。
Hudi表初始化 初始化导入存量数据通常由Spark作业来完成,由于初始化数据量通常较大,因此推荐使用API方式给充足资源来完成。 对于批量初始化后需要接Flink或Spark流作业实时写入的场景,一般建议通过对上有消息进行过滤,从一个指定的时间范围开始消费来控制数据的重复接入量
本节操作介绍DLI支持的数据源对应的开发方式。 使用须知 Flink作业访问DIS,OBS和SMN数据源,无需创建跨源连接,可以直接访问。 推荐使用增强型跨源连接打通DLI与数据源之间的网络。 跨源分析开发方式 表1提供DLI支持的数据源对应的开发方式。 表1 跨源分析语法参考 服务名称
使用CREATE TABLE命令创建DLI表并关联DWS上已有的表。 Spark跨源开发场景中直接配置跨源认证信息存在密码泄露的风险,优先推荐您使用DLI提供的跨源认证方式。 跨源认证简介及操作方法请参考跨源认证简介。 前提条件 创建DLI表关联DWS之前需要创建跨源连接。管理控制台操作请参考增强型跨源连接。
要的核心技术。 本案例以某商城真实的用户、商品、评论数据(脱敏后)为基础,利用数据湖探索来分析用户和商品的各种数据特征,可为营销决策、广告推荐、信用评级、品牌监控、用户行为预测提供高质量的信息。 流程指导 使用DLI进行电商数据分析的操作过程主要包括以下步骤: 步骤1:上传数据。
程序包管理概述 在执行DLI作业前需要将UDF Jar包或Jar作业程序包上传到云平台进行统一的管理和维护。 有以下两种方式管理程序包: (推荐使用)上传至OBS管理程序包:提前将对应的jar包上传至OBS桶中,在作业配置时选择对应的OBS路径。 (DLI程序包功能即将停用)上传至
空闲(无作业运行)时不会释放,使用体验更佳,价格比按需计费模式更优惠。 适用于可预估资源使用周期的场景,例如已完成开发进入生产阶段的项目,推荐使用包年包月计费模式预留业务所需资源。 包年包月的弹性资源池在使用过程中规格内按包周期计费,超出规格部分按需计费。 按需计费:按需计费是一
够对TB级数据实现秒级响应,极大提升了数据查询的效率。 Serverless资源开箱即用: Serverless服务模式无需关注底层配置、软件更新和故障问题,资源易维护,易扩展。 多种资源类型满足不同场景业务需求: 共享资源池:按量计费,提供极致的性价比资源。 独享资源池:提供独享资源池,满足高性能资源需求。
不支持(推荐使用:TEXT) 不支持(推荐使用:VARCHAR) 不支持(推荐使用:TEXT) 不支持(推荐使用:TEXT) MAP 不支持(推荐使用:TEXT) 不支持(推荐使用:String) 不支持(推荐使用:TEXT) 不支持(推荐使用:VARCHAR) 不支持(推荐使用:TEXT)
DWS DWS Connector概述 DWS源表(不推荐使用) DWS结果表(不推荐使用) DWS维表(不推荐使用) 父主题: Connector列表
Connector使用方法请参考表1 表1 DWS Connector支持类别 类别 操作指导 源表 DWS源表(不推荐使用) 结果表 DWS结果表(不推荐使用) 维表 DWS维表(不推荐使用) 父主题: DWS
ter_name”指定队列仍然有效。 推荐使用“queue”参数,“queue”参数与“cluster_name”参数两者不能同时存在。 cluster_name 否 String 用于指定队列,填写已创建DLI队列的队列名称。 说明: 推荐使用“queue”参数,“queue”
SQL作业相关API 提交SQL作业(推荐) 取消作业(推荐) 查询所有作业 预览SQL作业查询结果 导出查询结果 查询作业状态 查询作业详细信息 检查SQL语法 查询作业执行进度信息
您还可以通过自定义镜像增强DLI的计算环境,通过下载DLI提供的基础镜像再按需制作自定义镜像,将作业运行需要的依赖(文件、jar包或者软件)、私有能力等内置到自定义镜像中,可以改变Spark作业和Flink作业的容器运行环境,增强作业的功能、性能。 例如,在自定义镜像中加入机