检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
户的安全责任在于对使用的IaaS、PaaS和SaaS类云服务内部的安全以及对租户定制配置进行安全有效的管理,包括但不限于虚拟网络、虚拟主机和访客虚拟机的操作系统,虚拟防火墙、API网关和高级安全服务,各项云服务,租户数据,以及身份账号和密钥管理等方面的安全配置。 《华为云安全白皮
登录OBS控制台,将生成的Jar包文件上传到OBS路径下。 登录DLI控制台,选择“作业管理 > Spark作业”。 单击操作列“编辑”。 编辑“应用程序”,选择1上传的OBS地址。 图11 配置应用程序 Spark 3.3以下版本: 分别上传Jar包到OBS和DLI下。 登录OBS控制台,将生成的Jar包文件上传到OBS路径下。
json_path) 表2 参数说明 参数 数据类型 说明 json_string STRING 需要解析的JSON对象,使用字符串表示。 json_path STRING 解析JSON的路径表达式,使用字符串表示。 目前path支持如下表达式参考下表表3。 表3 json_path参数支持的表达式
IS_ALPHA(string) 如果字符串中的所有字符都是字母,则返回 true,否则返回 false。 IS_DECIMAL(string) 如果 string 可以解析为有效数字,则返回 true,否则返回 false。 IS_DIGIT(string) 如果字符串中的所有字符都是数字,则返回 true,否则返回
时间,24小时制(hh:mm:ss) %U 周(00 .. 53), 星期天是一周的第一天 %u 周(00 .. 53), 星期一是一周的第一天 %V 周(01 .. 53),星期天是一周的第一天,与%X配合使用 %v 星期(01 .. 53), 第一条为星期一,与%X配合使用 %W 周几(Sunday
STRING, `c50name` STRING, `c51name` STRING, `c52name` STRING, `c53name` STRING, `c54name` STRING ) USING csv options ( path 'obs://
json_path) 表2 参数说明 参数 数据类型 说明 json_string STRING 需要解析的JSON对象,使用字符串表示。 json_path STRING 解析JSON的路径表达式,使用字符串表示。 目前path支持如下表达式参考下表表3。 表3 json_path参数支持的表达式
EXTERNAL TABLE. 新增支持解析“+Infinity”、“+INF”和“-INF”类型字符串的值 说明: Spark2.4.x:当从定义为FloatType 或 DoubleType的JSON属性读取值时,Spark2.4.x仅支持解析“Infinity”和“-Infinity”。
基于文件的权限管理。 高性能 性能 基于软硬件一体化的深度垂直优化。 大数据开源版本性能。 跨源分析 支持多种数据格式,云上多种数据源、ECS自建数据库以及线下数据库,数据无需搬迁,即可实现对云上多个数据源进行分析,构建企业的统一视图,帮助企业快速完成业务创新和数据价值探索。
登录OBS控制台,将生成的Jar包文件上传到OBS路径下。 登录DLI控制台,选择“作业管理 > Spark作业”。 单击操作列“编辑”。 编辑“应用程序”,选择1上传的OBS地址。 图11 配置应用程序 Spark 3.3以下版本: 分别上传Jar包到OBS和DLI下。 登录OBS控制台,将生成的Jar包文件上传到OBS路径下。
创建数据库 功能描述 创建数据库。 语法格式 1 2 3 CREATE [DATABASE | SCHEMA] [IF NOT EXISTS] db_name [COMMENT db_comment] [WITH DBPROPERTIES (property_name=property_value
在DLI控制台创建数据库和表 数据库是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。 表是数据库最重要的组成部分之一。表是由行与列组合成的。每一列被当作是一个字段。每个字段中的值代表一种类型的数据。 数据库是一个框架,表是其实质内容。一个数据库包含一个或者多个表。
导出DLI表数据至OBS中 支持将数据从DLI表中导出到OBS服务中,导出操作将在OBS服务新建文件夹,或覆盖已有文件夹中的内容。 注意事项 支持导出json格式的文件,且文本格式仅支持UTF-8。 只支持将DLI表(表类型为“Managed”)中的数据导出到OBS桶中,且导出的路径必须指定到文件夹级别。
Python SDK环境配置 操作场景 在进行二次开发时,要准备的开发环境如表1所示。 表1 开发环境 准备项 说明 操作系统 Windows系统,推荐Windows 7及以上版本。 安装Python Python版本建议使用2.7.10和3.4.0以上版本,需要配置Visual
使用DLI提交SQL作业查询OBS数据 场景描述 DLI可以查询存储在OBS中的数据,本节操作介绍使用DLI提交SQL作业查询OBS数据的操作步骤。 本例新建“sampledata.csv”文件上传OBS桶,并新建弹性资源池队列,使用DLI创建数据库和表,使用DLI提供的SQL编辑器查询表的1000条数据。
使用DLI将CSV数据转换为Parquet数据 应用场景 Parquet是面向分析型业务的列式存储格式,这种格式可以加快查询速度,查询Parquet格式数据时,只检查所需要的列并对它们的值执行计算,也就是说,只读取一个数据文件或表的一小部分数据。Parquet还支持灵活的压缩选项
根据MySQL和kafka所在的虚拟私有云和子网创建相应的跨源,并绑定所要使用的队列。然后设置安全组,入向规则,使其对当前将要使用的队列放开,并根据MySQL和kafka的地址测试队列连通性。若能连通,则表示跨源已经绑定成功;否则表示未成功。 在MySQL的flink数据库下创建表order_count,创建语句如下:
根据MySQL和kafka所在的虚拟私有云和子网创建相应的跨源,并绑定所要使用的队列。然后设置安全组,入向规则,使其对当前将要使用的队列放开,并根据MySQL和kafka的地址测试队列连通性。如果能连通,则表示跨源已经绑定成功;否则表示未成功。 在MySQL的flink数据库下创建表order_count,创建语句如下:
json_path) 表2 参数说明 参数 数据类型 说明 json_string STRING 需要解析的JSON对象,使用字符串表示。 json_path STRING 解析JSON的路径表达式,使用字符串表示。 目前path支持如下表达式参考下表表3。 表3 json_path参数支持的表达式
典型场景示例:迁移Hive数据至DLI 本文为您介绍如何通过CDM数据同步功能,迁移MRS Hive数据至DLI。其他MRS Hadoop组件数据,均可以通过CDM与DLI进行双向同步。 前提条件 已创建DLI的SQL队列。创建DLI队列的操作可以参考创建DLI队列。 创建DLI