检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
\"age\":\"23\"}")); Dataset<Row> dataFrame = sqlContext.read().json(javaRDD); 设置连接参数 String url = "192.168.4.62:8635,192.168.5.134:8635/test?authSource=admin";
业结果文件的场景,即不需要旧的作业结果的场景。 结果条数 否 指定导出的结果条数。 不填写数值或数值为“0”时,导出全部结果。 表头 否 设置导出查询结果数据是否含表头。 导出作业结果到本地 异步DDL和QUERY语句支持将结果下载到本地。下载到本地默认仅支持下载1000条数据。
创建Flink OpenSource SQL作业时,在作业编辑界面的“运行参数”处,“Flink版本”需要选择“1.12”,勾选“保存作业日志”并设置保存作业日志的OBS桶,方便后续查看作业日志。 语法格式 1 2 3 4 5 6 7 8 9 create table printSink
在DLI管理控制台左侧,选择“资源管理 > 队列管理”。 选择需要扩容的队列,单击“操作”列“更多”中的“弹性扩缩容”。 在“弹性扩缩容”页面,“变更方式”选择“扩容”,设置扩容的CU值。 图1 弹性扩容 确认费用无误后,单击“确定”。 弹性缩容 当计算业务较小,不需要那么大的队列规格时,可以通过手动变更队列规格来缩容当前队列。
读取kafka中的数据,以avro格式反序列化,并输出到print中。 根据kafka所在的虚拟私有云和子网创建相应的跨源,并绑定所要使用的队列。然后设置安全组,入向规则,使其对当前将要使用的队列放开,并根据kafka的地址测试队列连通性(通用队列 > 找到作业的所属队列 > 更多 > 测试地址连通性
Truststore密码 truststore密码。 Keystore路径 上传SSL KEYSTORE(密钥和证书)文件的OBS路径。 Keystore密码 keystore(密钥和证书)密码。 Key密码 keystore中的私钥密码。 图1 创建认证信息-Kafka_SSL 访
保存 保存修改。 创建作业 使用当前模板创建作业。 格式化 对SQL语句进行格式化,将SQL语句格式化后,需要重新编辑SQL语句。 主题设置 更改字体大小、自动换行、页面风格(黑色底或白色底)等配置。 在SQL语句编辑区域,输入SQL语句,实现业务逻辑功能。SQL语句的编写请参考《数据湖探索SQL语法参考》。
登录DLI管理控制台。 在页面右上角的用户名的下拉列表中选择“我的凭证”。 在“我的凭证”页面,默认显示“项目列表”,切换到“管理访问密钥”页面。 单击左侧“新增访问密钥”按钮,输入“登录密码”和“短息验证码”。 单击“确定”,下载证书。 下载成功后,在credentials文件中即可获取AK和SK信息。
sparkSession = SparkSession.builder.appName("datasource-mongo").getOrCreate() 设置连接参数 1 2 3 4 5 6 url = "192.168.4.62:8635,192.168.5.134:8635/test?authSource=admin"
maxwell-json.ignore-parse-errors 否 false Boolean 跳过解析错误而不是失败的字段和行。出现错误时,字段设置为空。 maxwell-json.timestamp-format.standard 否 'SQL' String 指定输入和输出时间戳格
Boolean 当解析异常时,是跳过当前字段或行,还是抛出错误失败(默认为 false,即抛出错误失败)。如果忽略字段的解析异常,则会将该字段值设置为null。 debezium-json.timestamp-format.standard 否 'SQL' String 声明输入和输出
paction执行合并的过程必须和实时任务解耦,通过周期调度Spark任务来完成异步Compaction,这个方案的关键之处在于如何合理的设置这个周期,周期如果太短意味着Spark任务可能会空跑,周期如果太长可能会积压太多的Compaction Plan没有去执行而导致Spark
优先级 当前弹性资源池中的优先级数字越大表示优先级越高。本例设置一条扩缩容策略,默认优先级为1。 1 时间段 首条扩缩容策略是默认策略,不能删除和修改时间段配置。 即设置00-24点的扩缩容策略。 00-24 最小CU 设置扩缩容策略支持的最小CU数。 16 最大CU 当前扩缩容策略支持的最大CU数。
命名表分区) ALTER_TABLE_RECOVER_PARTITION(恢复表分区) ALTER_TABLE_SET_LOCATION(设置分区的路径) SHOW_PARTITIONS(显示所有分区) SHOW_CREATE_TABLE(查看建表语句) TABLE上可以赋权/回收的权限:
automatic默认为true)。 Archive操作并不是每次写数据时都会触发,至少需要满足以下两个条件: Hudi表满足hoodie.keep.max.commits设置的阈值。如果是Flink写hudi至少提交的checkpoint要超过这个阈值;如果是Spark写hudi,写Hudi的次数要超过这个阈值。
选择“跨源管理 > 增强型跨源”。 进入增强型跨源连接列表页面,选择您需要查看的增强型跨源连接。 在列表页面的右上方单击可以自定义显示列,并设置表格内容显示规则、操作列显示规则。 在列表页面上方的搜索区域,您可以名称和标签筛选需要的增强型跨源连接。 单击查看增强型跨源连接详细信息。
x:空值在CSV数据源中为""。 Spark3.3.x:空值在CSV数据源中无引号。 如需在Spark3.3.x版本中恢复Spark2.4.x的格式,可以通过设置spark.sql.legacy.nullValueWrittenAsQuotedEmptyStringCsv为 true来实现。 升级引擎版本后是否对作业有影响:
file_format为csv时,options参数可以参考表3。 注意事项 通过配置“spark.sql.shuffle.partitions”参数可以设置非DLI表在OBS桶中插入的文件个数,同时,为了避免数据倾斜,在INSERT语句后可加上“distribute by rand()”,可以增加处理作业的并发量。例如:
DISTINCT] query ALL和DISTINCT表示是否返回包含重复的行。ALL返回所有的行;DISTINCT返回只包含唯一的行。如果未设置,默认为DISTINCT。 INTERSECT query INTERSECT [DISTINCT] query INTERSECT仅返回
jar包冲突。用户提交的flink jar 与 DLI 集群中的hdfs jar包存在冲突。 处理步骤 1. 将用户pom文件中的的hadoop-hdfs设置为: <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>h