检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
新数据写入新的文件组,或设置为更高的值以确保新数据被“填充”到现有小的文件组中,直到达到指定大小为止,但其会增加摄取延迟。 为能够支持快速摄取的同时不影响查询性能,引入了Clustering服务来重写数据以优化Hudi数据湖文件的布局。 Clustering服务可以异步或同步运行
方法三:数据老化,按照业务逻辑分析大的维度表是否可以通过数据老化清理无效的维度数据从而降低数据规模。 数据量非常小的事实表 这种可以在预估很长一段时间的数据增长量的前提下使用非分区表预留稍宽裕一些的桶数来提升读写性能。 确认表内桶数 Hudi表的桶数设置,关系到表的性能,需要格外引起注意。
什么是Clean Cleaning用于清理Hudi表不再需要的老版本数据文件 (parquet文件或者log文件),减轻存储压力,提升list操作效率。 如何执行Clean 写完数据后clean Spark SQL(设置如下参数,随后执行任意写入SQL时,在满足条件时触发) hoodie
添加Python包后,找不到指定的Python环境 添加Python3包后,找不到指定的Python环境。 可以通过在conf文件中,设置spark.yarn.appMasterEnv.PYSPARK_PYTHON=python3,指定计算集群环境为Python3环境。 目前,新
Bitwise函数 bit_count(x, bits) → bigint 计算2的补码表示法中x中设置的位数(视为有符号位的整数)。 SELECT bit_count(9, 64); -- 2 SELECT bit_count(9, 8); -- 2 SELECT bit_count(-7
功能介绍 该API用于将数据库或数据表的数据权限赋给指定的其他用户。 被赋权用户所在用户组的所属区域需具有Tenant Guest权限。 关于Tenant Guest权限的介绍和开通方法,详细参见权限策略和《统一身份认证服务 用户指南》中的创建用户组。 当前接口已废弃,不推荐使用。
包年包月弹性资源池设置了定时扩缩容时,怎样计费? 假设您在2023/03/08 15:50:04购买了包年/包月弹性资源池(CU范围:64CUs),购买时长为一个月,在资源运行一段时间后发现使用过程中大部分时间CU数在128CU以上(假设每天累计12个小时实际CUs为128CUs
Insert作业执行过程中扫描到的错误记录数。 input_size Long 作业执行过程中扫描文件的大小,单位字节。 result_count Integer 当前作业返回的结果总条数或insert作业插入的总条数。 database_name String 记录其操作的表所在的数据库名称。类
查询OpenTSDB表 SELECT命令用于查询OpenTSDB表中的数据。 若OpenTSDB上不存在metric,查询对应的DLI表会报错。 若OpenTSDB开了安全模式,则访问时,需要设置conf:dli.sql.mrs.opentsdb.ssl.enabled=true
是 String 提交作业的用户。 start_time 是 Long 作业开始的时间。是单位为“毫秒”的时间戳。 duration 是 Long 作业执行的时间间隔,单位毫秒。 export_mode 否 String 导出数据或保存查询结果时,指定的导出模式。 范围为“Err
DLI提供了一个通用接口,可用于获取用户在启动Spark作业时设置的委托的临时凭证。该接口将获取到的该作业委托的临时凭证封装到com.huaweicloud.sdk.core.auth.BasicCredentials类中。 获取到的委托的临时认证封装到com.huaweicloud.sdk
每页显示的返回信息的个数,默认值为100。 offset 否 Integer 偏移量。 filter 否 String 筛选条件,目前只支持“=”条件筛选,例如:name=name1,表示筛选出分区中name=name1的数据,name为分区列名称,name1为分区列的值。key和value不区分大小写。
DLI提供了一个通用接口,可用于获取用户在启动Flink作业时设置的委托的临时凭证。该接口将获取到的该作业委托的临时凭证封装到com.huaweicloud.sdk.core.auth.BasicCredentials类中。 获取到的委托的临时认证封装到com.huaweicloud.sdk
如下: 参考增强型跨源连接,根据Redis所在的虚拟私有云和子网创建相应的增强型跨源,并绑定所要使用的Flink弹性资源池。 设置Redis的安全组,添加入向规则使其对Flink的队列网段放通。参考测试地址连通性根据redis的地址测试队列连通性。如果能连通,则表示跨源已经绑定成功,否则表示未成功。
请求费用:用户访问OBS中存储的静态网站文件时产生的请求费用。 流量费用:用户使用自定义域名通过公网访问OBS时产生的流量费用。 实际产生的费用与存储的文件大小、用户访问所产生的请求次数和流量大小有关,请根据自己的业务进行预估。 DLI 在创建SQL作业前需购买队列,使用DLI的队列资源时,按照队列CU时进行计费。
考虑到输入流可以是无界的,每个桶中的数据被组织成有限大小的Part文件。完全可以配置为基于时间的方式往桶中写入数据,比如可以设置每个小时的数据写入一个新桶中。即桶中将包含一个小时间隔内接收到的记录。 桶目录中的数据被拆分成多个Part文件。对于相应的接收数据的桶的Sink的每个Subta
在多个节点时,用分号间隔。 metric 所创建的DLI表对应的OpenTSDB中的指标名称。 tags metric对应的标签,用于归类、过滤、快速检索等操作。可以是1个到8个,以“,”分隔,包括对应metric下所有tagk的值。 注意事项 创建DLI表时,不需要指定time
database_name 是 String 查看表所在的数据库名称。 表2 query参数 参数名称 是否必选 参数类型 说明 keyword 否 String 过滤表名称的关键词。 with-detail 否 Boolean 是否获取表的详细信息(所有者,size等)。默认值为“false”。
考虑到输入流可以是无界的,每个桶中的数据被组织成有限大小的Part文件。完全可以配置为基于时间的方式往桶中写入数据,比如可以设置每个小时的数据写入一个新桶中。即桶中将包含一个小时间隔内接收到的记录。 桶目录中的数据被拆分成多个Part文件。对于相应的接收数据的桶的Sink的每个Subta
U一致。 CU范围:CU设置主要是为了控制弹性资源池扩缩容的最大最小CU范围,避免无限制的资源扩容风险。 弹性资源池中所有队列的最小CU数之和需要小于等于弹性资源池的最小CU数。 弹性资源池中任意一个队列的最大CU必须小于等于弹性资源池的最大CU。 弹性资源池至少可以满足弹性资源