检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
B,可以减少单个任务读取的数据量,避免因过高的压缩比,导致解压后单个任务处理的数据量过大。 但调整这个参数可能会影响到作业的执行效率和资源消耗,因此在做调整时需要根据实际的数据量和压缩率来选择适合的参数值。 父主题: DLI数据库和表类
建数据流管道,主要解决云服务外的数据实时传输到云服务内的问题。数据接入服务每小时可从数十万种数据源(如IoT数据采集、日志和定位追踪事件、网站点击流、社交媒体源等)中连续捕获、传送和存储数TB数据。DIS的更多信息,请参见《数据接入服务用户指南》。 语法格式 create table
按钮,可在资源预估后恢复初始值。 支持展示页面缩放。 支持根据算子链展开/合并。 支持编辑“并行数”,“流量”和“命中率”。 并行数:一个任务的并发数。 流量:算子的数据流量,单位:条/s。 命中率:数据经过算子处理之后的保留率。命中率=算子的数据流出量/流入量,单位:%。 图5
行合并。 参考如何合并小文件完成合并小文件。 支持修改非分区表或分区表的列注释 修改非分区表或分区表的列注释。 支持统计SQL作业的CPU消耗 支持在控制台查看“CPU累计使用量”。 支持容器集群Spark日志跳转查看 需要在容器查看日志。 支持动态加载UDF(公测) 无需重启队列UDF即可生效。
不支持设置队列属性和作业优先级。 不支持对接Notebook实例。 其他弹性资源池使用相关约束限制请参考弹性资源池使用约束限制。 适用于对资源消耗不高、对资源高可靠性和高可用性要求不高的测试场景。 标准版 64CUs及以上规格 弹性资源池使用相关约束限制请参考弹性资源池使用约束限制。
行合并。 参考如何合并小文件完成合并小文件。 支持修改非分区表或分区表的列注释 修改非分区表或分区表的列注释。 支持统计SQL作业的CPU消耗 支持在控制台查看“CPU累计使用量”。 支持容器集群Spark日志跳转查看 需要在容器查看日志。 支持动态加载UDF(公测) 无需重启队列UDF即可生效。
"cu_spec": 16 } 状态码 状态码如表3所示。 表3 状态码 状态码 描述 200 查询成功。 400 请求错误。 500 内部服务器错误。 错误码 调用接口出错后,将不会返回上述结果,而是返回错误码和错误信息,更多介绍请参见错误码。 父主题: 队列相关API(推荐)
按照“CU时”收取计算费用,用户在弹性资源池添加的队列上运行作业时按照弹性资源池CU时计费。 适用于可预估队列使用量的场景、或测试项目等资源消耗不高的场景。 弹性资源池CU时套餐包的额度按订购周期重置。 存储量套餐包 按照存储在DLI服务中的数据存储量(单位为“GB”)收取存储费用。
异常重试最大次数,单位:次/小时。取值范围:-1或大于0。默认值为“-1”,表示无限次数。 static_estimator_config 否 String 每个算子的流量/命中率配置,json格式的字符串。例如: {"operator_list":[{"id":"0a448493b4782967b150582570326227"
Flink、HetuEngine生态,提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务。用户不需要管理任何服务器,即开即用。 DLI支持标准SQL/Spark SQL/Flink SQL,支持多种接入方式,并兼容主流数据格式。数据无需复杂的抽取、转换、
行合并。 参考如何合并小文件完成合并小文件。 支持修改非分区表或分区表的列注释 修改非分区表或分区表的列注释。 支持统计SQL作业的CPU消耗 支持在控制台查看“CPU累计使用量”。 支持容器集群Spark日志跳转查看 需要在容器查看日志。 支持动态加载UDF(公测) 无需重启队列UDF即可生效。
行合并。 参考如何合并小文件完成合并小文件。 支持修改非分区表或分区表的列注释 修改非分区表或分区表的列注释。 支持统计SQL作业的CPU消耗 支持在控制台查看“CPU累计使用量”。 支持容器集群Spark日志跳转查看 需要在容器查看日志。 支持动态加载UDF(公测) 无需重启队列UDF即可生效。
DLI的计费组成 计费项 DLI的计费项包括计算计费、存储计费、扫描量计费。DLI的计费详情请参见DLI产品价格详情。您可以通过DLI提供的价格计算器,快速计算出购买资源的参考价格。 表1 DLI计费项 计费项 说明 计算计费 支持三种计费模式: 按照包年/包月的订购周期计费 根据计算资源使用量(CU时)按需计费。
弹性资源池的按需模式默认勾选专属资源模式,自创建起根据购买的实际CU按自然小时收费,秒级计费,按小时结算。计算费用=单价*实际CU数*小时数。 按需计费模式适用于测试项目,资源消耗不高,按需计费成本更低。 套餐包:DLI支持购买弹性资源池CU时套餐包,购买后在弹性资源池中提交作业按CU时计费。建议购买弹性资源池CU时套餐包和按需计费模式结合使用,
适用于在处理具有大量分区的表时。 如果SQL查询中包含大量的嵌套left join操作,并且表有大量的动态分区时,这可能会导致在数据解析时消耗大量的内存资源,导致Driver节点的内存不足,并触发频繁的Full GC。 在这种情况下,可以配置该参数为false即禁用动态分区修剪优
所提交Flink作业的描述。 用户名 提交作业的用户名称。 创建时间 每个作业的创建时间。 开始时间 Flink作业开始运行的时间。 运行时长 作业运行所消耗的时间。 操作 编辑:编辑已经创建好的作业。 启动:启动作业并运行。 更多 FlinkUI:单击后,将跳转至Flink任务运行情况界面。 说明:
验。用户在不确定所需队列容量或没有可创建队列空间的情况下,可以使用该队列执行作业。队列资源按需分配,按扫描量计费,适用于测试项目场景,资源消耗不高,按需计费成本更低,无需任何预付款。 约束限制 仅default队列适用按数据扫描量计费。 如果扫描字节数量少于10M, 则按10M计算。
户,结果状态(运行成功,可查看结果;运行失败,显示失败原因),数据库,CPU累计使用量,输出字节。 CPU累计使用量:作业执行过程的CPU消耗总和,单位:Core*ms 输出字节:作业执行完成后输出的字节数。 查找作业 在“SQL作业”页面,可以通过以下方式对作业进行过滤筛选,在页面中显示符合对应条件的作业。
内容大小,不是指数据行数也不是parquet的数据文件大小),目的是将对应的桶的Parquet文件大小控制在256MB范围内(平衡读写内存消耗和HDFS存储有效利用),因此可以看出2GB的这个限制只是一个经验值,因为不同的业务数据经过列存压缩后大小是不一样的。 为什么建议是2GB?
适用于在处理具有大量分区的表时。 如果SQL查询中包含大量的嵌套left join操作,并且表有大量的动态分区时,这可能会导致在数据解析时消耗大量的内存资源,导致Driver节点的内存不足,并触发频繁的Full GC。 在这种情况下,可以配置该参数为false即禁用动态分区修剪优