检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
当encode为user_defined时,需配置该参数,指定用户自实现解码类的类名(包含完整包路径),该类需继承类DeserializationSchema。 encode_class_parameter 否 当encode为user_defined时,可以通过配置该参数指定用户自实现解码类的入参,仅支持一个string类型的参数。
link作业的容器运行环境,增强作业的功能、性能。 例如,在自定义镜像中加入机器学习相关的Python包或者C库,可以通过这种方式帮助用户实现功能扩展。创建自定义镜像请参考使用自定义镜像增强作业运行环境。 DLI元数据是SQL作业、Spark作业场景开发的基础。在执行作业前您需要根据业务场景定义数据库和表。
DLI表表示数据存储在本服务内部的表中。 CloudTable表表示数据储存在CloudTable服务的表中。 可通过DLI创建表,与其他服务的数据进行关联,以此来实现不同数据源的联合查询分析。 常量与变量 环境变量中,常量与变量的区别如下: 常量在程序运行过程中,所表示的值是无法被改变的。 变量是“可读
间的网络。 配置DLI 队列与公网网络连通 介绍DLI队列在公网访问场景下网络连通的方法。通过配置SNAT规则,添加到公网的路由信息,可以实现队列到和公网的网络打通。 Spark SQL作业开发 使用Spark SQL作业分析OBS数据 介绍使用Spark SQL作业创建OBS表
认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 代码实现 导入依赖 涉及到的mvn依赖库 1 2 3 4 5 <dependency> <groupId>org.apache.spark</groupId>
"1", encode = "csv", field_delimiter = "," ); /** 创建数据维表,用于和输入流连接,实现字段回填 * * 根据实际情况修改以下选项: * value_type:redis的键值对应值类型,支持STRING、HASH
"1", encode = "csv", field_delimiter = "," ); /** 创建数据维表,用于和输入流连接,实现字段回填 * * 根据实际情况修改以下选项: * value_type:redis的键值对应值类型,支持STRING、HASH
问所有Flink和Spark支持的数据源与输出源,如Kafka、Hbase、ElasticSearch等。 自拓展生态 用户可通过编写代码实现从想要的云生态或者开源生态获取数据,作为Flink作业的输入数据。 云服务生态开发 表1 云服务生态开发一览表 数据源 SQL 自定义作业
而且在延迟时间内到达的每个数据都会更新输出结果。 说明: 当时间窗口为处理时间时,无论lateness_interval为何值,都不会有效果。 period_interval和lateness_interval不可为负数。 当period_interval为0时,表示没有使用窗口的周期触发策略;
提供了更大的灵活性和自定义能力。适合需要自定义函数、UDF(用户定义函数)或特定库集成的复杂数据处理场景。可以利用Flink的生态系统,实现高级流处理逻辑和状态管理。 发布区域:全部 使用DLI提交Flink OpenSource SQL作业 使用DLI提交Flink Jar作业
而且在延迟时间内到达的每个数据都会更新输出结果。 说明: 当时间窗口为处理时间时,无论lateness_interval为何值,都不会有效果。 period_interval和lateness_interval不可为负数。 当period_interval为0时,表示没有使用窗口的周期触发策略;
表1 参数说明 参数 是否必选 说明 默认值 field 是 数据在数据流中的字段名。 - degree 否 指定使用之前数据项的个数,当前实现中限定p = q = degree。 5 derivativeOrder 否 指定差分次数,通常设置为1或者2。 1 示例 分别使用AR,
对于包含count(distinct)的多维分析(with cube)的查询场景,spark典型的执行计划是将cube使用expand算子来实现,但该操作会导致查询膨胀,为了避免出现查询膨胀,建议执行如下配置: spark.sql.keep.distinct.expandThreshold:
认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 代码实现 导入依赖 涉及到的mvn依赖库 1 2 3 4 5 <dependency> <groupId>org.apache.spark</groupId>
临时数据,例如:作业日志等。 如果不创建该桶,将无法查看作业日志。桶名称为系统默认。 在OBS管理控制台页面通过配置桶的生命周期规则,可以实现定时删除OBS桶中的对象或者定时转换对象的存储类别。 具体操作请参考通过配置生命周期规则。 SQL编辑器页面可以批量执行SQL语句。 作业编辑窗口常用语法采用不同颜色突出显示。
表1 参数说明 参数 是否必选 说明 默认值 field 是 数据在数据流中的字段名。 - degree 否 指定使用之前数据项的个数,当前实现中限定p = q = degree。 5 derivativeOrder 否 指定差分次数,通常设置为1或者2。 1 示例 分别使用AR,
对于包含count(distinct)的多维分析(with cube)的查询场景,spark典型的执行计划是将cube使用expand算子来实现,但该操作会导致查询膨胀,为了避免出现查询膨胀,建议执行如下配置: spark.sql.keep.distinct.expandThreshold:
认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 代码实现 导入依赖。 涉及到的mvn依赖库 1 2 3 4 5 <dependency> <groupId>org.apache.spark</groupId>
当encode为user_defined时,需配置该参数,指定用户自实现解码类的类名(包含完整包路径),该类需继承类DeserializationSchema。 encode_class_parameter 否 当encode为user_defined时,可以通过配置该参数指定用户自实现解码类的入参,仅支持一个string类型的参数。
当encode为user_defined时,需配置该参数,指定用户自实现解码类的类名(包含完整包路径),该类需继承类DeserializationSchema。 encode_class_parameter 否 当encode为user_defined时,可以通过配置该参数指定用户自实现解码类的入参,仅支持一个string类型的参数。