检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CLEAN 命令功能 用于根据配置对Timeline上的Instant进行clean,删除老旧的历史版本文件,以减少hudi表的数据存储及读写压力。 命令格式 RUN CLEAN ON tableIdentifier; RUN CLEAN ON tablelocation; 参数描述
成本说明 OBS 需要创建一个OBS桶将数据上传到对象存储服务OBS,为后面使用DLI完成数据分析做准备。 OBS的使用涉及以下几项费用: 存储费用:静态网站文件存储在OBS中产生的存储费用。 请求费用:用户访问OBS中存储的静态网站文件时产生的请求费用。 流量费用:用户使用自定
OPTIMIZE 命令功能 OPTIMIZE命令用于优化数据在存储中的布局,提高查询速度。 注意事项 由于Optimize是一项耗时的活动,因此需要根据更好的最终用户查询性能与优化计算时间之间的权衡来确定运行Optimized的频率。 分区表优化需要设置参数spark.sql.f
可伸缩的时间序列数据库。OpenTSDB的设计目标是用来采集大规模集群中的监控类信息,并可实现数据的秒级查询,解决海量监控类数据在普通数据库中查询存储的局限性,可用于系统监控和测量、物联网数据、金融数据和科学实验结果数据的收集监控。 DLI可以通过增强型跨源连接功能将Flink作业的输出数据写入到OpenTSDB中。
On Read 读时合并表也简称MOR表,使用列格式parquet和行格式Avro两种方式混合存储数据。其中parquet格式文件用于存储基础数据,Avro格式文件(也可叫做log文件)用于存储增量数据。 优点:由于写入数据先写delta log,且delta log较小,所以写入成本较低。
table-name 否 table存储模式下必配,redis中存储表名。在table存储模式下,数据将以hash类型存储到redis,其中key为:${table-name}:${ext-key},field名为列名。 说明: table存储模式:将connector.table-name、connector
data_location 是 String 数据存储的地方,分OBS表、DLI表,View。 last_access_time 是 Long 最近更新时间。是单位为“毫秒”的时间戳。 location 否 String OBS表上的存储路径。 owner 是 String 表创建者。
您可以通过“CREATE TABLE tb_avro STORED AS AVRO AS SELECT 1 AS colName”指定列名的方式解决该问题,或者将存储格式指定为除AVRO以外的其它格式。 父主题: SQL作业运维类
Quantile digest函数 概述 Quantile digest(分位数摘要)是存储近似百分位信息的数据草图。HetuEngine中用qdigest表示这种数据结构。 函数 merge(qdigest) → qdigest 描述:将所有输入的qdigest数据合并成一个qdigest。
key2=val2, ...) 语法说明 IF NOT EXISTS 如果数据库已经存在,则不会进行任何操作。 WITH OPTIONS 数据库属性一般用于存储关于这个数据库额外的信息。 表达式 key1=val1中的键和值都是字符串文本常量。 父主题: DDL语法定义
创建Kafka_SSL类型跨源认证 操作场景 通过在DLI控制台创建的Kafka_SSL类型的跨源认证,将Kafka的认证信息存储到DLI,无需在SQL作业中配置账号密码,安全访问Kafka实例。 MRS Kafka开启Kerberos认证,未开启SSL认证时,创建Kerbero
导出数据的文件格式。当前只支持json格式。 队列 选择队列。 压缩格式 导出数据的压缩方式,选择如下压缩方式。 none bzip2 deflate gzip 存储路径 输入或选择OBS路径。 导出路径必须为OBS桶中不存在的文件夹,即用户需在OBS目标路径后创建一个新文件夹。 文件夹名称不能包含下列特殊字符:\
要获得访问和使用DIS(数据接入服务)DIS Administrator权限。 ctable_adm:访问和使用CloudTable(表格存储服务)的CloudTable Administrator权限。 vpc_netadm:使用VPC(虚拟私有云)的VPC Administrator权限。
Flink Jar作业设置backend为OBS,报错不支持OBS文件系统 问题现象 客户执行Flink Jar作业,通过设置checkpoint存储在OBS桶中,作业一直提交失败,并伴有报错提交日志,提示OBS桶名不合法。 原因分析 确认OBS桶名是否正确。 确认所用AKSK是否有权限。
4(弹性资源池计算单价:元/时) x 256(CU数) x 24 x 30(小时数) = 73728 元/月 存储费用=单价*存储数据量(GB)*小时数 存储费用:0.00013889(存储单价:元/GB)x 1024(存储数据大小:GB)x 24 x 30(小时数)= 100 元/月 合计 总费用:73828
c”,“json”和“avro”。 data_location 否 String 数据存储的路径,为OBS路径。 storage_properties 否 Array of Objects 存储属性,以“key/value”的格式出现,包含delimiter,escape,quo
FileSytem结果表 功能描述 FileSystem结果表用于将数据输出到分布式文件系统HDFS或者对象存储服务OBS等文件系统。数据生成后,可直接对生成的目录创建非DLI表,通过DLI SQL进行下一步处理分析,并且输出数据目录支持分区表结构。适用于数据转储、大数据分析、备份或活跃归档、深度或冷归档等场景。
事务日志来跟踪这些文件,并通过读取所有 Parquet 文件的页脚来自动推断数据架构。 转换过程会收集统计信息,以提升转换后的 Delta 表的查询性能。 如果提供表名,则元存储也将更新,以反映该表现在是 Delta 表。 注意事项 分区表转换需要设置参数spark.sql.forcePartitionPredic
主基本信息,表格存储CloudTable中存放实时的车辆位置和健康状态信息,数据仓库DWS中存放周期性统计的指标。通过DLI无需数据搬迁,对多数据源进行联邦分析。 数据分级存储:车企需要保留全量历史数据支撑审计类等业务,低频进行访问。温冷数据存放在低成本的对象存储服务OBS上,高
只有OBS表有该参数。 data_location 是 String 数据存储位置,分为DLI和OBS。 last_access_time 是 Long 最近更新时间。是单位为“毫秒”的时间戳。 location 否 String OBS表的存储路径。 说明: 只有OBS表有该参数。 owner 是