检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark3.3.1基础镜像内置了3.1.62版本的huaweicloud-sdk-core。 准备环境 已安装和配置IntelliJ IDEA等开发工具以及安装JDK和Maven。 pom文件配置中依赖包 <dependency> <groupId>com.huaweicloud.sdk</groupId>
percentlie_approx percentile_approx (colname,DOUBLE p) DOUBLE或ARRAY 计算近似百分位数,适用于大数据量。先对指定列升序排列,然后取第p位百分数对应的值。 pi pi() DOUBLE 返回pi的值。 pmod pmod(INT a, INT
Windows系统,支持Windows7以上版本。 安装JDK JDK使用1.8版本。 安装和配置IntelliJ IDEA IntelliJ IDEA为进行应用开发的工具,版本要求使用2019.1或其他兼容版本。 安装Maven 开发环境的基本配置。用于项目管理,贯穿软件开发生命周期。 开发流程 DLI进行Spark
资产识别与管理 DLI 可以通过标签实现资源的标识与管理。 使用场景 通常您的业务系统可能使用了华为云的多种云服务,您可以为这些云服务下不同的资源实例分别设置标签,各服务的计费详单会体现这些资源实例设置的标签。如果您的业务系统是由多个不同的应用构成,为同一种应用拥有的资源实例设置
ssl.keystore keystore的存放路径,“flink.keystore”表示用户通过generate_keystore.sh*工具生成的keystore文件名称。 是 /opt/flink/usrlib/userData/flink.keystore security
数据库和表的约束与限制 数据库 “default”为内置数据库,不能创建名为“default”的数据库。 DLI支持创建的数据库的最大数量为50个。 数据表 DLI支持创建的表的最大数量为5000个。 DLI支持创建表类型: Managed:数据存储位置为DLI的表。 External:数据存储位置为OBS的表。
1.10以上版本,certifi,python-dateutil。 关于Python SDK的获取与安装请参考SDK获取与安装。 使用SDK工具访问DLI,需要用户初始化DLI客户端。用户可以使用AK/SK(Access Key ID/Secret Access Key)或Toke
及其以上版本。关于Java开发环境的配置请参考Java SDK环境配置。 关于Java SDK的获取与安装请参考SDK的获取与安装。 使用SDK工具访问DLI,需要用户初始化DLI客户端。用户可以使用AK/SK(Access Key ID/Secret Access Key)或Toke
max-actions 否 批量写入时的每次最大写入记录数 connector.bulk-flush.max-size 否 批量写入时的最大数据量,当前只支持MB,请带上单位 mb connector.bulk-flush.interval 否 批量写入时的刷新的时间间隔,单位为milliseconds,无需带上单位
数据类型映射 HBase以字节数组存储所有数据,在读和写过程中要序列化和反序列化数据。 Flink的HBase连接器利用HBase(Hadoop) 的工具类org.apache.hadoop.hbase.util.Bytes进行字节数组和Flink数据类型转换。 Flink的HBase连接器
数据类型映射 HBase以字节数组存储所有数据,在读和写过程中要序列化和反序列化数据。 Flink的HBase连接器利用HBase(Hadoop) 的工具类org.apache.hadoop.hbase.util.Bytes进行字节数组和Flink数据类型转换。 Flink的HBase连接器
Flink1.15基础镜像内置了3.1.62版本的huaweicloud-sdk-core。 准备环境 已安装和配置IntelliJ IDEA等开发工具以及安装JDK和Maven。 Maven工程的pom.xml文件配置请参考JAVA样例代码中“pom文件配置”说明。 pom文件配置中依赖包
仅提供开源connector。 开发与运维 监控、告警 支持对接华为云CES监控平台,支持对接华为云SMN告警系统,用户可通过邮件、短信、电话、第三方办公工具(webhook模式) 支持对接企业内部统一监控告警系统(prometheus)。 支持Flink作业速率、输入输出数据量、作业算子反压值
分析窗口函数 分析窗口函数概览 cume_dist first_value last_value lag lead percent_rank rank row_number 父主题: 内置函数
表1 Spark 3.3.1版本优势 特性 说明 Native性能加速 Spark查询语句性能提升。 元数据访问性能提升 提升Spark在处理大数据时的元数据访问性能,提高数据处理流程效率。 提升OBS committer小文件写性能 提升对象存储服务(OBS)在处理小文件写入时的性能,提高数据传输效率。
lag lag函数用于用于统计窗口内往上第n行值。 使用限制 窗口函数的使用限制如下: 窗口函数只能出现在select语句中。 窗口函数中不能嵌套使用窗口函数和聚合函数。 窗口函数不能和同级别的聚合函数一起使用。 命令格式 lag(<expr>[, bigint <offset>[
rank rank函数用于计算一个值在一组值中的排位。如果出现并列的情况,RANK函数会在排名序列中留出空位。 使用限制 窗口函数的使用限制如下: 窗口函数只能出现在select语句中。 窗口函数中不能嵌套使用窗口函数和聚合函数。 窗口函数不能和同级别的聚合函数一起使用。 命令格式
转换对象的存储类别。 DLI的作业桶设置后请谨慎修改,否则可能会造成历史数据无法查找。 前提条件 配置前,请先购买OBS桶或并行文件系统。大数据场景推荐使用并行文件系统,并行文件系统(Parallel File System)是对象存储服务(Object Storage Serv
lead lead函数用于用于统计窗口内往下第n行值。 使用限制 窗口函数的使用限制如下: 窗口函数只能出现在select语句中。 窗口函数中不能嵌套使用窗口函数和聚合函数。 窗口函数不能和同级别的聚合函数一起使用。 命令格式 lead(<expr>[, bigint <offset>[
按大小分割:默认情况下,每个日志文件最大为128MB。 按时间分割:每过一小时自动创建新的日志文件。 前提条件 配置前,请先购买OBS桶或并行文件系统。大数据场景推荐使用并行文件系统,并行文件系统(Parallel File System)是对象存储服务(Object Storage Serv