检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用跨源认证则无需在作业中配置账号和密码。
构造依赖信息,创建SparkSession 导入依赖。
导入业务数据:提交SQL脚本导入业务数据。请参考步骤2:业务数据的计算与处理。 数据查询与分析:提交SQL脚本分析业务数据,例如查询单日销售情况。请参考步骤3:销售情况的查询与分析。 作业编排:将数据处理和数据分析脚本编排成一个pipeline。
2024年1月后新注册使用DLI服务的用户,且使用Spark3.3及以上版本的引擎,在使用DataSource语法创建表时支持使用CTAS创建分区表。
导入前清空数据 选择导入前是否清空目的表的数据。当前示例选择为“否”。 如果设置为是,任务启动前会清除目标表中数据。 详细的参数配置可以参考:CDM配置DLI目的端参数。 单击“下一步”,进入到字段映射界面,CDM会自动匹配源和目的字段。
代码实现 导入依赖 涉及到的mvn依赖库 1 2 3 4 5 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.3.2<
在从源表插入数据到目标表的过程中,无法在源表中导入或更新数据。 对于Hive分区表的动态INSERT OVERWRITE,支持覆盖涉及到的分区数据,不支持覆盖整表数据。
构造依赖信息,创建SparkSession 导入依赖。
代码实现 导入依赖 涉及到的mvn依赖库 1 2 3 4 5 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.3.2<
使用跨源认证则无需在作业中配置置账号和密码。 key-by-before-sink 否 false Boolean 在sink算子前是否按指定的主键进行分区。
使用跨源认证则无需在作业中配置账号和密码。
使用跨源认证则无需在作业中配置账号和密码。
持续大量新增数据的维度表 方法一:预留桶数,如使用非分区表则需通过预估较长一段时间内的数据增量来预先增加桶数,缺点是随着数据的增长,文件依然会持续膨胀; 方法二:大粒度分区(推荐),如果使用分区表则需要根据数据增长情况来计算,例如使用年分区,这种方式相对麻烦些但是多年后表无需重新导入
代码实现 导入依赖。
使用跨源认证则无需在作业中配置账号和密码。 示例 该示例是从DCS Redis数据源中读取数据,并写入Print到结果表中,其具体步骤如下: 参考增强型跨源连接,根据redis所在的虚拟私有云和子网创建相应的增强型跨源,并绑定所要使用的Flink弹性资源池。
导入数据到HBase sparkSession.sql("insert into testhbase values('95274','abc','Jinan')") 读取HBase上的数据 sparkSession.sql("select * from testhbase").show
导入保存点:导入原实时流计算服务作业导出的数据。 触发保存点:“运行中”的作业可以“触发保存点”,保存作业的状态信息。 权限管理:查看作业对应的用户权限信息以及对其他用户授权。 运行时配置:支持作业在运行时配置作业异常告警和异常自动重启。
使用跨源认证则无需在作业中置账号密码。 数据类型映射 HBase以字节数组存储所有数据。在读和写过程中要序列化和反序列化数据。
使用跨源认证则无需在作业中配置和账号密码。
sparkSession.sparkContext.parallelize([("aaa", "abc", 123456L, 30.0)]) 创建DataFrame 1 dataFrame = sparkSession.createDataFrame(dataList, schema) 导入数据到