检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
/datasource/hbase/* 通过控制台提交作业请参考《数据湖探索用户指南》中的“选择依赖资源参数说明”。 通过API提交作业请参考《数据湖探索API参考》>《创建批处理作业》中“表2-请求参数说明”关于“modules”参数的说明。 完整示例代码 Maven依赖 1 2
ive UDF可以处理精度<=9 的TIMESTAMP值。 Hive不支持Flink的TIMESTAMP_WITH_TIME_ZONE。 TIMESTAMP_WITH_LOCAL_TIME_ZONE,和 MULTISET。 Flink的INTERVAL类型还不能映射到Hive INTERVAL类型。
可能会有什么影响? 读写任务可能会出现OOM的问题,解决方法就是提升单个task的内存占比。 读写性能下降,因为单个task的处理的数据量变大,导致处理耗时变大。 父主题: Hudi数据表设计规范
发现这类算子存在性能瓶颈,可以尝试优化状态操作的性能。主要可以尝试通过如下方式优化: 增加状态操作内存,降低磁盘IO 增加单slot cu资源数 配置优化参数: taskmanager.memory.managed.fraction=xx state.backend.rocksdb
参数说明 类型 选择Kafka_SSL。 认证信息名称 所创建的跨源认证信息名称。 名称只能包含数字、英文字母和下划线,但不能是纯数字,且不能以下划线开头。 输入长度不能超过128个字符。 Truststore路径 上传SSL Truststore文件的OBS路径。 MRS Kafka请填写Truststore
参数说明 类型 选择kerberos。 认证信息名称 所创建的跨源认证信息名称。 名称只能包含数字、英文字母和下划线,但不能是纯数字,且不能以下划线开头。 输入长度不能超过128个字符。 建议名称中包含MRS安全集群的名称,便于区分不同集群的安全认证信息。 用户名 安全集群的登录用户名。
window_start 和 window_end 列。 否则优化器无法翻译。 Flink 使用 ROW_NUMBER() 移除重复数据,就像窗口TopN一样。理论上,窗口是一种特殊的窗口 Top-N:N是1并且是根据处理时间或事件时间排序的。 更多介绍和使用请参考开源社区文档:窗口去重。
使用DLI分析电商BI报表 应用场景 某电商商城在保持高速发展的同时,沉淀了数亿的忠实用户,积累了海量的真实数据。如何利用BI工具从历史数据中找出商机,是大数据应用在精准营销中的关键问题,也是所有电商平台在做智能化升级时所需要的核心技术。 本案例以某商城真实的用户、商品、评论数据
quantity 进行定义,这个表达式可以包含物理列、常量、函数或变量的任意组合,但这个表达式不能存在任何子查询。 在 Flink 中计算列一般用于为 CREATE TABLE 语句定义 时间属性。 处理时间属性 可以简单地通过使用了系统函数 PROCTIME() 的 proc AS PROCTIME()
quantity 进行定义,这个表达式可以包含物理列、常量、函数或变量的任意组合,但这个表达式不能存在任何子查询。 在 Flink 中计算列一般用于为 CREATE TABLE 语句定义 时间属性。 处理时间属性 可以简单地通过使用了系统函数 PROCTIME() 的 proc AS PROCTIME()
BY进行分组,再在HAVING子句中进行过滤,HAVING子句支持算术运算,聚合函数等。 注意事项 如果过滤条件受GROUP BY的查询结果影响,则不能用WHERE子句进行过滤,而要用HAVING子句进行过滤。 示例 根据字段name对表student进行分组,再按组将score最大值大于95的记录筛选出来。
BY进行分组,再在HAVING子句中进行过滤,HAVING子句支持算术运算,聚合函数等。 注意事项 如果过滤条件受GROUP BY的查询结果影响,则不能用WHERE子句进行过滤,而要用HAVING子句进行过滤。 示例 根据字段name对表student进行分组,再按组将score最大值大于95的记录筛选出来。
BY进行分组,再在HAVING子句中进行过滤,HAVING子句支持算术运算,聚合函数等。 注意事项 如果过滤条件受GROUP BY的查询结果影响,则不能用WHERE子句进行过滤,而要用HAVING子句进行过滤。 示例 根据字段name对表student进行分组,再按组将score最大值大于95的记录筛选出来。
分钟内没有观测到新纪录,这个窗口将会被关闭。会话时间窗口可以使用事件时间(批处理、流处理)或处理时间(流处理)。 在流处理表中的 SQL 查询中,分组窗口函数的 time_attr 参数必须引用一个合法的时间属性,且该属性需要指定行的处理时间或事件时间。 time_attr设置为event-tim
助用户实现功能扩展。 用户使用自定义镜像功能需要具备Docker相关的基础知识。 使用限制 创建自定义镜像必须使用DLI提供的基础镜像。 不能随意修改基础镜像中DLI相关组件及目录。 仅支持Spark jar作业、Flink jar作业,即jar包作业。 使用流程 图1 自定义镜像使用流程
hoodie.cleaner.policy 要使用的清理政策。Hudi将删除旧版本的parquet文件以回收空间。 任何引用此版本文件的查询和计算都将失败。建议确保数据保留的时间超过最大查询执行时间。 KEEP_LATEST_COMMITS hoodie.cleaner.commits.retained
Service,简称DWS)是一种基于基础架构和平台的在线数据处理数据库,为用户提供海量数据挖掘和分析服务。DWS的更多信息,请参见《数据仓库服务管理指南》。 前提条件 请务必确保您的账户下已在数据仓库服务(DWS)里创建了DWS集群。 如何创建DWS集群,请参考《数据仓库服务管理指南》中“创建集群”章节。
Service,简称DWS)是一种基于基础架构和平台的在线数据处理数据库,为用户提供海量数据挖掘和分析服务。DWS的更多信息,请参见《数据仓库服务管理指南》。 前提条件 请务必确保您的账户下已在数据仓库服务(DWS)里创建了DWS集群。 如何创建DWS集群,请参考《数据仓库服务管理指南》中“创建集群”章节。
控制台操作请参考《数据湖探索用户指南》。API操作请参考《数据湖探索API参考》>《上传资源包》。 在Spark作业编辑器中选择对应的Module模块并执行Spark作业。 控制台操作请参考《数据湖探索用户指南》。API操作请参考《数据湖探索API参考》>《创建批处理作业》。 完整示例代码 Maven依赖 1 2 3
Flink 支持在 TUMBLE, HOP 和 CUMULATE 上进行窗口聚合。 在流模式下,窗口表值函数的时间属性字段必须是事件时间或处理时间。关于窗口函数更多信息,参见 窗口表值函数(Windowing TVFs)。 在批模式下,窗口表值函数的时间属性字段必须是 TIMESTAMP