检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
下个checkpoint产生的数据。 示例1 使用datagen随机生成数据写入obs的bucketName桶下的fileName目录中。文件生成时间与checkpoint有关,达到30min或128MB时,生成新文件。 create table orders( name string
下个checkpoint产生的数据。 示例一 使用datagen随机生成数据写入obs的bucketName桶下的fileName目录中。文件生成时间与checkpoint无关,达到30min或128MB时,生成新文件。 create table orders( name string
批量运行作业 查询作业列表 查询作业详情 查询作业执行计划 批量停止作业 删除作业 批量删除作业 导出Flink作业 导入Flink作业 生成Flink SQL作业的静态流图
获取DLI基础镜像。 使用Dockerfile将作业运行需要的依赖(文件、jar包或者软件)打包到镜像中,生成自定义镜像。 将镜像发布到SWR(容器镜像服务)中。 在DLI服务作业编辑页面选择自己生成的镜像,运行作业。 查看作业执行情况。 获取DLI基础镜像 请根据队列的架构类型选择相同类型的基础镜像。
创建OBS表。 该命令不会删除当前版本数据。 示例 删除dliTable表在2021-09-25 23:59:59之前生成的多版本数据(多版本生成时会自带一个生成时间时的时间戳)。 clear history for table dliTable older_than '2021-09-25
包。 图9 编译打包 打包成功后,生成的Jar包会放到target目录下,以备后用。本示例将会生成到:“D:\MyUDTF\target”下名为“MyUDTF-1.0-SNAPSHOT.jar”。 图10 生成Jar包 登录OBS控制台,将生成的Jar包文件上传到OBS路径下。
配置多版本过期数据回收站 功能描述 在DLI数据多版本功能开启后,过期的备份数据后续在执行insert overwrite或者truncate语句时会被系统直接清理。OBS并行文件系统可以通过配置回收站加速删除操作过期的备份数据。通过在表属性添加配置“dli.multi.version
timestamp=>'[timestamp]'); 参数描述 表1 参数描述 参数 描述 是否必填 op 生成compaction计划(op指定为“schedule”),或者执行已经生成的compaction计划(op指定为“run”) 是 table 需要查询表的表名,支持database
应用场景 DLI服务适用于海量日志分析、异构数据源联邦分析、大数据ETL处理。 海量日志分析 游戏运营数据分析 游戏公司不同部门日常通过游戏数据分析平台,分析每日新增日志获取所需指标,通过数据来辅助决策。例如:运营部门通过平台获取新增玩家、活跃玩家、留存率、流失率、付费率等,了解
Flink写hudi建议的方案是Flink只负责写数据和生成Compaction计划。由单独的队列提交Spark SQL或Spark jar作业异步执行compaction、clean和archive。Compaction计划的生成是轻量级的对Flink写入作业影响可以忽略。 上述方案落地的具体步骤参考如下:
包。 图9 导出jar包 打包成功后,生成的Jar包会放到target目录下,以备后用。本示例将会生成到:“D:\DLITest\MyUDAF\target”下名为“MyUDAF-1.0-SNAPSHOT.jar”。 登录OBS控制台,将生成的Jar包文件上传到OBS路径下。 J
量(例如Spark初始化完成后,Flink消费Kafka时过滤掉2小时之前的数据),如果无法对kafka消息进行过滤,则可以考虑先实时接入生成offset,再truncate table ,再历史导入,再开启实时。 图1 初始化操作流程 如果批量初始化前表里已经存在数据且没有truncate
图解数据湖探索
pile”对代码进行编译。 编译成功后,双击“package”对代码进行打包。 图9 编译打包 打包成功后,生成的Jar包会放到target目录下,以备后用。本示例将会生成到:“D:\DLITest\SparkJarObs\target”下名为“SparkJarObs-1.0-SNAPSHOT
存储位置记录到状态后端的一种索引形式,在作业冷启动过程中会遍历所有数据存储文件生成索引信息。 用Flink状态索引,Flink写入后,不支持Spark继续写入。 Flink在写Hudi的MOR表只会生成log文件,后续通过compaction操作,将log文件转为parquet文
SETS 的 GROUP BY 子句可以生成一个等效于由多个简单 GROUP BY 子句的 UNION ALL 生成的结果集,并且其效率比 GROUP BY 要高。 ROLLUP与CUBE按一定的规则产生多种分组,然后按各种分组统计数据。 CUBE生成的结果集显示了所选列中值的所有组合的聚合。
SETS 的 GROUP BY 子句可以生成一个等效于由多个简单 GROUP BY 子句的 UNION ALL 生成的结果集,并且其效率比 GROUP BY 要高。 ROLLUP与CUBE按一定的规则产生多种分组,然后按各种分组统计数据。 CUBE生成的结果集显示了所选列中值的所有组合的聚合。
SETS 的 GROUP BY 子句可以生成一个等效于由多个简单 GROUP BY 子句的 UNION ALL 生成的结果集,并且其效率比 GROUP BY 要高。 ROLLUP与CUBE按一定的规则产生多种分组,然后按各种分组统计数据。 CUBE生成的结果集显示了所选列中值的所有组合的聚合。
在DLI控制台配置数据库权限 数据库权限操作场景 针对不同用户,可以通过权限设置分配不同的数据库权限。 管理员用户和数据库的所有者拥有所有权限,不需要进行权限设置且其他用户无法修改其数据库权限。 给新用户设置数据库权限时,该用户所在用户组的所属区域需具有Tenant Guest权限。关于Tenant
更多版本新特性请参考Release Notes - Spark 2.4.5。 表1 Spark 2.4.5版本优势 特性 说明 支持配置小文件合并 使用SQL过程中,生成的小文件过多时,会导致作业执行时间过长,且查询对应表时耗时增大,建议对小文件进行合并。 参考如何合并小文件完成合并小文件。 支持修改非分区表或分区表的列注释