检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
车企数字化服务转型 大数据ETL处理 运营商大数据分析 运营商数据体量在PB~EB级,其数据种类多,有结构化的基站信息数据,非结构化的消息通信数据,同时对数据的时效性有很高的要求,DLI服务提供批处理、流处理等多模引擎,打破数据孤岛进行统一的数据分析。 优势 大数据ETL:具备TB~
以小时为单位进行结算。不足一小时按一小时计费,小时数按整点计算。队列CU时按需计费的计算费用=单价*CU数*小时数。 数据说明 详单数据 车辆上报的详单数据,包括定时上报的位置记录和异常的驾驶行为触发的告警事件数据。 表2 详单数据 字段名称 字段类型 字段说明 driverID string
使用DLI分析电商BI报表 应用场景 某电商商城在保持高速发展的同时,沉淀了数亿的忠实用户,积累了海量的真实数据。如何利用BI工具从历史数据中找出商机,是大数据应用在精准营销中的关键问题,也是所有电商平台在做智能化升级时所需要的核心技术。 本案例以某商城真实的用户、商品、评论数据(脱敏后)为基
使用DLI将CSV数据转换为Parquet数据 应用场景 Parquet是面向分析型业务的列式存储格式,这种格式可以加快查询速度,查询Parquet格式数据时,只检查所需要的列并对它们的值执行计算,也就是说,只读取一个数据文件或表的一小部分数据。Parquet还支持灵活的压缩选项,因此
具体使用示例详见:ARRAY示例。 MAP 一组无序的键/值对,使用给定的Key和Value对生成MAP。键的类型必须是原生数据类型,值的类型可以是原生数据类型或复杂数据类型。同一个MAP键的类型必须相同,值的类型也必须相同。 map(K <key1>, V <value1>, K
MySQL提供在线云数据库服务。 RDS对您选择的数据库实例、数据库存储和备份存储(可选)收费。 了解RDS计费说明。 DLV DLV适配云上云下多种数据源,提供丰富多样的可视化组件,快速定制数据大屏。 使用DLV服务的费用主要是DLV包年包月套餐的费用,您可以根据实际使用情况,选择合适的版本规格。
数据目录:数据目录(Catalog)是元数据管理对象,它可以包含多个数据库。您可以在DLI中创建并管理多个Catalog,用于不同的元数据隔离。 · 数据库:数据库是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。数据库通常用于存储、检索和管理结构化数据,由多个数据表组成,这些数据表通过键和索引相互关联。
了解 初步认识华为云数据湖探索,了解数据湖探索的基本功能、应用场景、基本概念和使用限制,有助于您更准确地匹配实际业务。 产品介绍 什么是DLI 应用场景 使用限制 与其他云服务的关系 03 入门 购买DLI队列后,您可以运行SQL作业和Spark作业,开启您的数据湖探索使用之旅。 使用前须知
同时根据读取的数据生成新的数据或对数据进行修改。 使用Hive和Datasource(除Hudi外)表在执行数据修改类命令(例如insert into,load data)时由于数据源不支持事务性,在系统故障或队列资源重启后,可能会导致数据重复或数据不一致等问题。 为了避免这种情
单精度浮点型,存储空间为4字节,在NULL情况下,采用计算值默认值为0。 由于浮点类型的数据在计算机中的存储方式的限制,在比较两个浮点类型的数据是否相等时,因存在精度问题,不能直接采用“a==b”的方式进行比较,建议使用“(a-b)的绝对值<=EPSILON”这种方式进行比较,EPSILON为允许的误差范围,一般为1
1时,支持在Spark参数(--conf)配置计算资源规格参数, 且conf的配置优先级高于高级配置指定的值。 参数对应关系请参考表4。 在Spark参数(--conf)配置计算资源规格参数时,可以配置单位 M/G/K,不配置时候默认单位为byte。 Spark3.3.1及以上版本增加了对作业的计算资源规格的约束限制。详细信息请参考表8。
前提条件 待导入的数据已存储到OBS上。 导入数据步骤 导入数据的入口有两个,分别在“数据管理”和“SQL编辑器”页面。 在“数据管理”页面导入数据。 在管理控制台的左侧,选择“数据管理”>“库表管理”。 单击需导入数据的表对应的数据库名称,进入该数据库的“表管理”页面。 在
查看表元数据 元数据说明 元数据(Metadata)是用来定义数据类型的数据。主要是描述数据自身信息,包含源、大小、格式或其它数据特征。数据库字段中,元数据用于诠释数据仓库的内容。 创建表时,会定义元数据,由列名、类型、列描述三列组成。 “元数据”页面将显示目标表的列名、列类型、类型和描述。
alog名称] 此处选择的是在DLI管理控制台创建的数据目录,即DLI与Lakeformation默认实例下的数据目录的映射,该数据目录连接的是LakeFormation默认实例下的数据目录。 - 示例中关于Catalog的参数说明请参考表4 表4 Flink OpenSource
可以通过标签实现资源的标识与管理。 使用场景 通常您的业务系统可能使用了华为云的多种云服务,您可以为这些云服务下不同的资源实例分别设置标签,各服务的计费详单会体现这些资源实例设置的标签。如果您的业务系统是由多个不同的应用构成,为同一种应用拥有的资源实例设置统一的标签将很容易帮助您对不同的应用进行使用量分析和成本核算。
清理多版本数据 功能描述 多版本数据保留周期是在表每次执行insert overwrite或者truncate语句时触发,所以当表的多版本数据在保留周期时间外但是后续该表不会再执行insert overwrite或者truncate语句时,多版本保留周期外的数据不会自动清理。可以
使用DLI分析账单消费数据 应用场景 本文主要介绍如何使用华为云DLI上的实际消费数据(文中涉及账户的信息已脱敏),在DLI的大数据分析平台上进行分析,找出费用优化的空间,并给出使用DLI过程中降低成本的一些优化措施。 流程介绍 使用DLI进行账单分析与优化的操作过程主要包括以下步骤:
Service,简称DWS)是一种基于基础架构和平台的在线数据处理数据库,为用户提供海量数据挖掘和分析服务。DWS的更多信息,请参见《数据仓库服务管理指南》。 前提条件 请务必确保您的账户下已在数据仓库服务(DWS)里创建了DWS集群。 如何创建DWS集群,请参考《数据仓库服务管理指南》中“创建集群”章节。
C组织颁布的TPC-H 标准满足了数据仓库领域的测试需求,并且促使各个厂商以及研究机构将该项技术推向极限。 本示例将演示DLI直接对存储在OBS中的TPC-H数据集进行查询的操作,DLI已经预先生成了100M的TPC-H-2.18的标准数据集,已将数据集上传到了OBS的tpch文
在DLI控制台创建数据库和表 数据库是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。 表是数据库最重要的组成部分之一。表是由行与列组合成的。每一列被当作是一个字段。每个字段中的值代表一种类型的数据。 数据库是一个框架,表是其实质内容。一个数据库包含一个或者多个表。