检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
verless融合处理分析服务。用户不需要管理任何服务器,即开即用。支持标准SQL/Spark SQL/Flink SQL,支持多种接入方式,并兼容主流数据格式。数据无需复杂的抽取、转换、加载,使用SQL或程序就可以对云上CloudTable、RDS、DWS、CSS、OBS、EC
'driver'='com.mysql.jdbc.Driver')") 创建表参数说明请参考表1。 插入数据 1 sparkSession.sql("insert into dli_to_rds values (1,'John',24)"); 查询数据 1 sparkSession.sql("select
dli:database:alterDatabaseProperties √ × 将SQL语句解释为执行计划 POST /v1.0/{project_id}/jobs/submit-job,SQL语句调用 dli:database:explain √ × 创建表 POST /v1
<artifactId>spark-sql_2.11</artifactId> <version>2.3.2</version> </dependency> import相关依赖包 1 import org.apache.spark.sql.SparkSession; 创建会话
apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.SQLContext; import org.apache.spark.sql.SaveMode; 创建会话
DLI各Spark版本对V1、V2表兼容列表 表类型 Spark2.3 SQL队列 Spark2.3 通用队列 Spark2.4 SQL队列 Spark2.4 通用队列 Spark3.1 SQL队列 Spark3.1 通用队列 Spark3.3 SQL队列 Spark3.3 通用队列 V1表 √ √ √
要的或需要保证资源的作业,建议购买弹性资源池并在弹性资源池中创建队列来执行作业。 SQL队列: SQL队列是用于执行SQL作业的队列,支持指定引擎类型包括Spark和HetuEngine。 SQL队列适用于需要快速数据查询和分析,以及需要定期清理缓存或重置环境的业务。 通用队列:
数据湖队列什么情况下是空闲状态? 队列空闲状态是指在DLI 作业管理中,该队列下均无SQL 作业运行,或者 Flink 作业运行、Spark 作业运行。 即一个自然小时内无作业运行,该自然小时为空闲状态。不会进行计费。 通常按需计费的队列,在空闲1h后计算资源会被释放,再次使用时
全局变量的使用中,一个子账号是否可以使用其他子账号创建的全局变量 全局变量可用于简化复杂参数。例如,可替换长难复杂变量,提升SQL语句可读性。 全局变量的使用具有以下约束限制: 存量敏感变量只有创建用户才能使用,其余普通全局变量同账号同项目下的用户共用。 如果同账号同项目下存在多
import print_function from pyspark.sql.types import StructType, StructField, IntegerType, StringType from pyspark.sql import SparkSession 创建会话 1 sparkSession
from pyspark.sql import SparkSession 创建会话 1 sparkSession = SparkSession.builder.appName("datasource-hbase").getOrCreate() 通过SQL API访问 创建DLI跨源访问HBase的关联表
<artifactId>spark-sql_2.11</artifactId> <version>2.3.2</version> </dependency> import相关依赖包 1 import org.apache.spark.sql.SparkSession; 创建会话
登录RDS控制台,创建RDS数据库实例。 具体操作请参见购买RDS for MySQL实例。 登录RDS实例后,单击“新建数据库”,创建名称为“test2”的数据库。 在“test2”的数据库所在行,操作列,单击“SQL查询”,输入以下创建表语句,单击“执行SQL”创建表“tabletest2”。建表语句参考如下:
mutable import org.apache.spark.sql.{Row, SparkSession} import org.apache.spark.rdd.RDD import org.apache.spark.sql.types._ 创建会话。 1 val sparkSession
apache.spark.sql.{Row, SparkSession} import org.apache.spark.rdd.RDD import org.apache.spark.sql.types._ object Test_SparkSql_HBase { def
job_type 否 String 作业类型。 flink_sql_job:flink sql作业 flink_opensource_sql_job:flink opensource sql作业 flink_sql_edge_job:flink sql边缘作业 flink_jar_job:flink自定义作业
apache.spark.sql.*; import org.apache.spark.sql.types.DataTypes; import org.apache.spark.sql.types.StructField; import org.apache.spark.sql.types.StructType;
postgresql.Driver')") 建表参数详情可参考表1。 插入数据 1 sparkSession.sql("insert into dli_to_dws values(2,'John',24)") 查询数据 1 jdbcDF = sparkSession.sql("select
<artifactId>spark-sql_2.11</artifactId> <version>2.3.2</version> </dependency> import相关依赖包 1 import org.apache.spark.sql.SparkSession; 创建会话
建议对流批业务实施资源池的精细化管理,将Flink实时流类型的作业与SQL批处理类型的作业分别置于独立的弹性资源池中。 优势在于:Flink实时流任务具有常驻运行的特质,确保其稳定运行而不会强制缩容,进而避免任务中断和系统不稳定。 而SQL批处理类型的作业在独立的资源池中能够更加灵活地进行扩缩容,显著提升扩缩容的成功率和操作效率。