检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
弹性资源池为DLI作业运行提供所需的计算资源(CPU和内存),用于灵活应对业务对计算资源变化的需求。 创建弹性资源池后,您可以在弹性资源池中创建多个队列,队列关联到具体的作业和数据处理任务,是资源池中资源被实际使用和分配的基本单元,即队列是执行作业所需的具体的计算资源。 同一弹性资源池中,队列之间的计算资源支持共享。
如果col值为NULL时,该列不参与计算。 示例代码 计算所有仓库的平均商品数(items)。命令示例如下: select avg(items) from warehouse; 返回结果如下: _c0 100.0 与group by配合使用,计算每个仓库中所有商品的平均库存。命令示例如下:
在实际作业运行中,由于作业的数据流量变化,导致所需计算资源不同,造成流量较小时计算资源浪费,流量较大时计算资源不足以满足计算所需。 DLI提供的动态扩缩容功能可以根据当前作业的负载情况,例如:数据输入输出量、数据输入输出速率、反压等情况,动态的调整当前作业所用的计算资源,提升资源利用率。 开启Fl
源池并添加队列中创建的队列,在操作列,单击“更多 > 测试地址连通性”。 在“测试连通性”界面,地址栏输入“Kafka内网地址:Kafka数据库端口”,单击“测试”测试DLI到Kafka网络是否可达。注意多个地址要分开单独测试。 步骤6:创建DLI连接RDS的增强型跨源连接 在RDS的安全组上放通DLI队列网段。
如果输入为STRING类型,会隐式转换为DOUBLE类型后参与运算。 返回值说明 返回DOUBLE类型的值。 如果col值为NULL时,该行不参与计算。 示例代码 计算所有仓库的商品(items)总和。命令示例如下: select sum(items) from warehouse; 返回结果如下:
HBase主机节点信息复制追加进去。 图3 修改主机信息 单击“确定”完成主机信息添加。 步骤5:测试网络连通性 单击“队列管理”,选择操作的队列,在操作列,单击“更多 > 测试地址连通性”。 在“测试连通性”界面,根据步骤1:获取外部数据源的内网IP、端口和安全组中获取的数据源的IP和端口,地址栏输入“数据源内网
故障恢复 系统级故障恢复 DLI系统采用存算分离的架构,计算集群基于K8s资源调度和故障切换机制,在系统故障时,支持自动故障恢复。 作业级故障恢复 Flink、Spark作业支持配置自动重启恢复机制,在开启自动重启功能后,当作业出现异常时将自动重启恢复作业。 父主题: 安全
聚合函数 聚合函数是从一组输入值计算一个结果。例如使用COUNT函数计算SQL查询语句返回的记录行数。聚合函数如表1所示。 表1 聚合函数表 函数 返回值类型 描述 COUNT([ ALL ] expression | DISTINCT expression1 [, expression2]*)
聚合函数 聚合函数是从一组输入值计算一个结果。例如使用COUNT函数计算SQL查询语句返回的记录行数。聚合函数如表1所示。 表1 聚合函数表 函数 返回值类型 描述 COUNT([ ALL ] expression | DISTINCT expression1 [, expression2]*)
DLI的计费项包括计算计费、存储计费、扫描量计费。DLI的计费详情请参见DLI产品价格详情。您可以通过DLI提供的价格计算器,快速计算出购买资源的参考价格。 表1 DLI计费项 计费项 说明 计算计费 支持三种计费模式: 按照包年/包月的订购周期计费 根据计算资源使用量(CU时)按需计费。
怎样升级DLI作业的引擎版本 DLI提供了Spark和Flink计算引擎,为用户提供了一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务,当前,Flink计算引擎推荐版本:Flink 1.15,Spark计算引擎推荐版本: Spark 3.3.1。 本节操作介绍如何升级作业的引擎版本。
成网段冲突。 主机信息 可选参数,用于配置主机的IP与域名的映射关系,在作业配置时只需使用配置的域名即可访问对应的主机。 例如:访问MRS的HBase集群时需要配置Zookeeper实例的主机名(即域名)与对应的IP地址。每行填写一条记录,填写格式为:“IP 主机名/域名”。 示例:
描述 table_name 表名称。 注意事项 语句所涉及的表必须存在,否则会出错。 示例 Saprk 2.4.5版本示例: 执行以下命令返回测试表testDB01.testTable5的建表语句 SHOW CREATE TABLE testDB01.testTable5 返回test表的建表语句:
DataGen源表 功能描述 DataGen主要用于生成随机数据,可用于调试以及测试等场景。 前提条件 无 注意事项 创建DataGen表时,表字段类型不支持Array,Map和Row复杂类型,可以通过CREATE TABLE语句中的“COMPUTED COLUMN”来进行类似功能构造。
DataGen 功能描述 DataGen主要用于生成随机数据,可用于调试以及测试等场景。 表1 支持类别 类别 详情 支持表类型 源表 注意事项 创建DataGen表时,表字段类型不支持Array,Map和Row复杂类型,可以通过CREATE TABLE语句中的“COMPUTED
据查询分析。SQL语法全兼容标准ANSI SQL 2003。 存算分离 DLI解耦计算和存储负载,存算分离架构,存储资源和计算资源按需灵活配置,提高了资源利用率,降低了成本。 企业级多租户 支持计算资源按租户隔离,数据权限控制到队列、作业,帮助企业实现部门间的数据共享和权限管理。
参数说明 date DATE SQL日期。 示例 测试语句 SELECT MONTH(DATE '1997-04-25' ) AS `result` FROM testtable; 测试结果 result 4 WEEK 功能描述 计算当前日期是一年中的第几周,以BIGINT类型返回。
参数说明 date DATE SQL日期。 示例 测试语句 SELECT MONTH(DATE '1997-04-25' ) AS `result` FROM testtable; 测试结果 result 4 WEEK 功能描述 计算当前日期是一年中的第几周,以BIGINT类型返回。
分组聚合 聚合函数把多行输入数据计算为一行结果。例如,有一些聚合函数可以计算一组行的 “COUNT”、“SUM”、“AVG”(平均)、“MAX”(最大)和 “MIN”(最小)。 对于流式查询,用于计算查询结果的状态可能无限膨胀。状态的大小大多数情况下取决于去重行的数量和分组持续的时间,持续时间较短的
va server connection或container启动失败。 解决方案 确认是否已修改跨源连接的主机信息,如果没有,请参考DLI跨源连接中配置MRS主机信息修改主机信息。重新创建和提交Spark作业。 问题2:运行Spark作业,作业运行失败,作业日志中提示KrbException: