-
永洪BI创建数据集 - 数据湖探索 DLI
在永洪SaaS生产环境主页,单击左侧导航栏中的“创建数据集”,请参见图1。 图1 创建数据集 在“数据集类型”页面中,选择创建“SQL数据集”,请参见图2。 图2 创建SQL数据集 在“创建数据集”页面中,左侧“数据源”栏选择已添加的DLI数据源,请参见图3。 图3 选择数据源 左侧“表”栏
-
使用API相关问题 - 数据湖探索 DLI
使用API相关问题 如何获取AK/SK? 如何获取项目ID? 提交SQL作业时,返回“unsupported media Type”信息 不同账号的调用API时的项目ID(Project ID)是固定的吗? 创建SQL作业的API执行超过时间限制,运行超时报错 API接口返回的中文字符为乱码,如何解决?
-
scala样例代码 - 数据湖探索 DLI
</dependency> 通过SQL API访问 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 import org.apache.spark.sql.{SparkSession}; object Test_Redis_SQL { def
-
scala样例代码 - 数据湖探索 DLI
apache.spark.sql.{Row, SparkSession} import org.apache.spark.rdd.RDD import org.apache.spark.sql.types._ object Test_SparkSql_HBase { def
-
DLI Spark 2.3.2版本停止服务(EOS)公告 - 数据湖探索 DLI
说明 支持配置小文件合并 使用SQL过程中,生成的小文件过多时,会导致作业执行时间过长,且查询对应表时耗时增大,建议对小文件进行合并。 参考如何合并小文件完成合并小文件。 支持修改非分区表或分区表的列注释 修改非分区表或分区表的列注释。 支持统计SQL作业的CPU消耗 支持在控制台查看“CPU累计使用量”。
-
创建Flink Jar作业 - 数据湖探索 DLI
“SMN主题”: 选择一个自定义的SMN主题。如何自定义SMN主题,请参见《消息通知服务用户指南》中“创建主题”章节。 异常自动重启 设置是否启动异常自动重启功能,当作业异常时将自动重启并恢复作业。 勾选后需配置下列参数: “异常重试最大次数”:配置异常重试最大次数。单位为“次/小时”。 无限:无限次重试。
-
Flink作业管理 - 数据湖探索 DLI
Flink作业管理 Flink作业管理概述 Flink作业权限管理 准备Flink作业数据 (推荐)创建Flink OpenSource SQL作业 创建Flink SQL作业 创建Flink Jar作业 操作Flink作业 Flink作业详情 标签管理 开启Flink作业动态扩缩容 父主题: 作业管理
-
内置依赖包 - 数据湖探索 DLI
parquet-jackson-1.12.2.jar commons-text-1.10.0.jar jetty-io-9.4.41.v20210516.jar postgresql-42.3.5.jar commons-validator-1.7.jar jetty-rewrite-9.4.43.v20210629
-
作业模板 - 数据湖探索 DLI
作业模板 SQL模板管理 Flink模板管理 Spark模板管理 附录
-
模板相关API(废弃) - 数据湖探索 DLI
模板相关API(废弃) 查询所有SQL样例模板(废弃) 父主题: 历史API
-
历史API - 数据湖探索 DLI
Spark批处理相关API(废弃) SQL作业相关API(废弃) 资源相关API(废弃) 权限相关API(废弃) 队列相关API(废弃) 跨源认证相关API(废弃) 增强型跨源连接相关API(废弃) 模板相关API(废弃) 表相关API(废弃) SQL作业相关API(废弃) 上传数据相关API(废弃)
-
关联队列到弹性资源池 - 数据湖探索 DLI
message 否 String 系统提示信息,执行成功时,信息可能为空。 请求示例 关联队列lhm_sql到该弹性资源池。 { "queue_name" : "lhm_sql" } 响应示例 { "is_success" : true, "message" : "" }
-
使用DLI进行账单分析与优化 - 数据湖探索 DLI
计费项包括存储费用与计算费用两项,计费类型包括包周期(包年包月),套餐包和按需计费三种。 DLI目前支持三种作业:SQL作业,Flink作业和Spark作业。 SQL作业的计费包括存储计费和计算计费,其中计算计费有包年包月计费和按需计费两种。 包年包月计费根据购买周期进行扣费,推
-
Flink作业委托场景开发指导 - 数据湖探索 DLI
Flink作业委托场景开发指导 Flink Opensource SQL使用DEW管理访问凭据 Flink Jar 使用DEW获取访问凭证读写OBS 用户获取Flink作业委托临时凭证
-
Spark 3.3.1版本说明 - 数据湖探索 DLI
支持配置小文件合并 使用SQL过程中,生成的小文件过多时,会导致作业执行时间过长,且查询对应表时耗时增大,建议对小文件进行合并。 参考如何合并小文件完成合并小文件。 支持修改非分区表或分区表的列注释 修改非分区表或分区表的列注释。 支持统计SQL作业的CPU消耗 支持在控制台查看“CPU累计使用量”。
-
导入数据 - 数据湖探索 DLI
页面。 在目标表“操作”栏中选择“更多”中的“导入”,弹出“导入数据”页面。 图1 导入数据 在“SQL编辑器”页面导入数据。 在管理控制台的左侧,单击“SQL编辑器”。 在“SQL编辑器”页面左侧导航栏选择“数据库”页签,鼠标左键单击需要导入数据的表对应的数据库名,进入“表”区域。
-
弹性资源池规格变更 - 数据湖探索 DLI
量选择要扩容的CU数量。 图1 规格变更扩容 确定费用后,单击“提交”。 扩容任务提交后,可以选择“作业管理 > SQL作业”,查看“SCALE_POOL”类型SQL作业的状态。 如果作业状态为“规格变更中”,表示弹性资源池规格正在扩容中。等待作业状态变为“已成功”表示当前当前变更操作完成。
-
错误码 - 数据湖探索 DLI
0001 参数校验错误。 400 DLI.0002 对象不存在。 400 DLI.0003 SQL权限校验未通过。 400 DLI.0004 SQL语法解析错误。 400 DLI.0005 SQL语义解析错误。 400 DLI.0006 对象已存在错误。 400 DLI.0007 不支持该操作。
-
通过跨源表向CloudTable Hbase表导入数据,executor报错:RegionTooBusyException - 数据湖探索 DLI
查看task错误日志。 结论:rowkey过于集中,出现了热点region。 处理步骤 Hbase做预分区。 把rowkey散列化。 建议与总结 建议DLI在写入数据时也将数据离散化,避免大量数据写入同一个regionServer,同时,在insert语句后增加distribute by rand()。
-
将DLI数据导出至OBS - 数据湖探索 DLI
导出数据的入口有两个,分别在“数据管理”和“SQL编辑器”页面。 在“数据管理”页面导出数据。 在管理控制台左侧,单击“数据管理”>“库表管理”。 单击需导出数据的表对应的数据库,进入该数据的“表管理”页面。 在对应表(DLI表)的“操作”栏中选择“更多”中的“导出”,弹出“导出数据”页面。 在“SQL编辑器”页面导出数据。