检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark作业的实际资源使用情况 将Spark作业结果存储在MySQL数据库中,缺少pymysql模块,如何使用python脚本访问MySQL数据库? 如何在DLI中运行复杂PySpark程序? 如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度 Spark
mutable import org.apache.spark.sql.{Row, SparkSession} import org.apache.spark.rdd.RDD import org.apache.spark.sql.types._ 创建会话。 1 val sparkSession
</dependency> 通过SQL API访问 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 import org.apache.spark.sql.{SparkSession}; object Test_Redis_SQL { def
Flink作业相关API 新建SQL作业 更新SQL作业 新建Flink Jar作业 更新Flink Jar作业 批量运行作业 查询作业列表 查询作业详情 查询作业执行计划 批量停止作业 删除作业 批量删除作业 导出Flink作业 导入Flink作业 生成Flink SQL作业的静态流图
job_type 否 String 作业类型: flink_sql_job:flink sql作业 flink_opensource_sql_job:flink opensource sql作业 flink_sql_edge_job:flink sql边缘作业 flink_jar_job:flink自定义作业
import print_function from pyspark.sql.types import StructType, StructField, IntegerType, StringType from pyspark.sql import SparkSession 创建session
create_time 否 Long 创建队列的时间。是单位为“毫秒”的时间戳。 queueType 否 String 队列类型。 sql general all 如果不指定,默认为“sql”。 cuCount 否 Integer 与该队列绑定的计算单元数。即当前队列的CU数。 chargingMode
模板描述。 create_time 否 Long 模板创建时间。 update_time 否 Long 模板更新时间。 sql_body 否 String Stream SQL语句。至少包含source、 query、sink三个部分。 job_type 否 String 作业模板类型。
操作指导 说明 Flink作业场景 Flink Opensource SQL使用DEW管理访问凭据 Flink Opensource SQL场景使用DEW管理和访问凭据的操作指导,将Flink作业的输出数据写入到Mysql或DWS时,在connector中设置账号、密码等属性。 Flink
不同类型的作业支持跨源认证的数据源与认证方式不同。 Spark SQL支持跨源认证的数据源与约束限制请参考表2。 Flink OpenSource SQL 1.12支持跨源认证的数据源与约束限制请参考表3。 表2 Spark SQL支持跨源认证的数据源 跨源认证类型 数据源 约束与限制 CSS
apache.spark.sql.{Row, SparkSession} import org.apache.spark.rdd.RDD import org.apache.spark.sql.types._ object Test_SparkSql_HBase { def
通过执行查询语句,查询OBS数据进一步进行确认,查询结果确认数据量正确。 因此,该问题为验证方式不正确造成。 参考信息 插入数据的SQL语法,请参考《数据湖探索Spark SQL语法参考》。 父主题: DLI数据库和表类
步骤2:使用DLI将CSV数据转换为Parquet数据 在DLI控制台总览页面左侧,单击“SQL编辑器”,进入SQL作业编辑器页面。 在SQL作业编辑器左侧,选择“数据库”页签,单击创建名字为demo的数据库。 在DLI的SQL编辑窗口,执行引擎选择“spark”,队列选择“default”,数据库
实例登录 登录RDS实例后,单击“新建数据库”,创建名称为“dli-demo”的数据库。 图7 创建数据库 单击“SQL操作”>“SQL查询”,执行如下SQL创建测试用MySQL表,表相关字段含义在•数据说明中有详细介绍。 DROP TABLE `dli-demo`.`trade_channel_collect`;
job_type 否 String 作业类型。 flink_sql_job:flink sql作业 flink_opensource_sql_job:flink opensource sql作业 flink_sql_edge_job:flink sql边缘作业 flink_jar_job:flink自定义作业
tor。 更多Flink 1.15版本的优势请参考Flink 1.15升级指导。 切换至新版本计算引擎对DLI资源价格是否有影响? DLI按作业运行所需的计算资源和存储资源计费,与计算引擎版本无关。 如何升级到Flink 1.15版本? 在DLI管理控制台,购买弹性资源池和队列资源,用于提供执行作业所需的计算资源。
支持配置小文件合并 使用SQL过程中,生成的小文件过多时,会导致作业执行时间过长,且查询对应表时耗时增大,建议对小文件进行合并。 参考如何合并小文件完成合并小文件。 支持修改非分区表或分区表的列注释 修改非分区表或分区表的列注释。 支持统计SQL作业的CPU消耗 支持在控制台查看“CPU累计使用量”。
park判断分区为空时,则会直接返回null,不返回具体的数据。 解决方案 登录DLI管理控制台,在“SQL编辑器”中,单击“设置”。 在参数设置中,添加参数“spark.sql.forcePartitionPredicatesOnPartitionedTable.enabled”,值设置为“false”。
助用户监控账号下的DLI队列,执行自动实时监控、告警和通知操作。用户可以实时掌握队列中的运行作业网络流入速率、网络流出速率、CPU使用率、内存使用率、磁盘利用率、失败作业率、等待作业数等信息。还可以通过云监控服务提供的管理控制台或API接口来检索数据湖探索服务产生的监控指标和告警信息。
Spark批处理相关API(废弃) SQL作业相关API(废弃) 资源相关API(废弃) 权限相关API(废弃) 队列相关API(废弃) 跨源认证相关API(废弃) 增强型跨源连接相关API(废弃) 模板相关API(废弃) 表相关API(废弃) SQL作业相关API(废弃) 上传数据相关API(废弃)