检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
file_format为csv时,options参数可以参考表3。 注意事项 通过配置“spark.sql.shuffle.partitions”参数可以设置非DLI表在OBS桶中插入的文件个数,同时,为了避免数据倾斜,在INSERT语句后可加上“distribute by rand()”,可以增加处理作业的并发量。例如:
DISTINCT] query ALL和DISTINCT表示是否返回包含重复的行。ALL返回所有的行;DISTINCT返回只包含唯一的行。如果未设置,默认为DISTINCT。 INTERSECT query INTERSECT [DISTINCT] query INTERSECT仅返回
jar包冲突。用户提交的flink jar 与 DLI 集群中的hdfs jar包存在冲突。 处理步骤 1. 将用户pom文件中的的hadoop-hdfs设置为: <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>h
多IO。 batch.size.entries 单次batch插入entry的条数上限,默认为1000。如果单条数据非常大,在bulk存储设置的数据条数前提前到达了单次batch的总数据量上限,则停止存储数据,以batch.size.bytes为准,提交该批次的数据。 batch
timestamp(3), time。 为了避免数据丢失或者数据被覆盖,开启作业异常自动重启,需要配置为“从checkpoint恢复”。 checkpoint间隔设置需在输出文件实时性、文件大小和恢复时长之间进行权衡,比如10分钟。 使用HDFS时需要绑定相应的跨源,并填写相应的主机信息。 使用hdfs
// 设置两次checkpoint的最小间隔时间 streamEnv.getCheckpointConfig().setMinPauseBetweenCheckpoints(60000); // 设置checkpoint超时时间
分区列 numFiles 表的最新版本中的文件个数 sizeInBytes 表的最新快照的大小(以字节为单位) properties 为此表设置的所有属性 minReaderVersion 可以读取该表的最低Reader版本 minWriterVersion 可以写入该表的最低Writer版本
创建Flink OpenSource SQL作业时,在作业编辑界面的“运行参数”处,“Flink版本”需要选择“1.12”,勾选“保存作业日志”并设置保存作业日志的OBS桶,方便后续查看作业日志。 语法格式 create table blackhole_table ( attr_name
选择“跨源管理 > 增强型跨源”。 进入增强型跨源连接列表页面,选择您需要查看的增强型跨源连接。 在列表页面的右上方单击可以自定义显示列,并设置表格内容显示规则、操作列显示规则。 在列表页面上方的搜索区域,您可以名称和标签筛选需要的增强型跨源连接。 单击查看增强型跨源连接详细信息。
下划线开头,且不能超过128字符。 var_value 是 String 全局变量值。 is_sensitive 否 Boolean 是否设置为敏感变量。默认为“false”。 响应消息 表3 响应参数说明 参数名称 是否必选 参数类型 说明 is_success 否 Boolean
storage_path 指定目录的完整FS绝对路径 space_consumed 返回文件/目录在集群中占用的实际空间,即它考虑了为集群设置的复制因子 quota 名称配额(名称配额是对当前目录树中的文件和目录名称数量的硬性限制) space_quota 空间配额(空间配额是对
优先级 当前弹性资源池中的优先级数字越大表示优先级越高。本例设置一条扩缩容策略,默认优先级为1。 1 时间段 首条扩缩容策略是默认策略,不能删除和修改时间段配置。 即设置00-24点的扩缩容策略。 00-24 最小CU 设置扩缩容策略支持的最小CU数。 16 最大CU 当前扩缩容策略支持的最大CU数。
创建Flink OpenSource SQL作业时,在作业编辑界面的“运行参数”处,“Flink版本”需要选择“1.12”,勾选“保存作业日志”并设置保存作业日志的OBS桶,方便后续查看作业日志。 语法格式 create table dataGenSource( attr_name attr_type
key不均衡场景下,group聚合计算存在单点或者数据倾斜问题,此时,可以通过将聚合计算拆分成Local-Global进行优化。配置方式为设置调优参数: table.optimizer.aggphase-strategy=TWO_PHASE count distinct优化 在count
该场景作业需要运行在DLI的独享队列上,因此要与云搜索服务建立增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。 如何设置安全组规则,请参见《虚拟私有云用户指南》中“安全组”章节。 注意事项 当前只支持CSS集群7
Boolean 当解析异常时,是跳过当前字段或行,还是抛出错误失败(默认为 false,即抛出错误失败)。如果忽略字段的解析异常,则会将该字段值设置为null。 json.timestamp-format.standard 否 'SQL' String 声明输入和输出的TIMESTAMP和TIMESTAMP
创建Flink OpenSource SQL作业时,在作业编辑界面的“运行参数”处,“Flink版本”需要选择“1.15”,勾选“保存作业日志”并设置保存作业日志的OBS桶,方便后续查看作业日志。 认证用的username和password等硬编码到代码中或者明文存储都有很大的安全风险,
计费模式、CU范围、网段等配置。 创建弹性资源池并添加队列 步骤二:添加队列到弹性资源池 添加作业运行的队列到弹性资源池。具体内容包括: 设置弹性资源池队列的名称、队列类型等基本信息。 配置当前队列的扩缩容策略,包括队列策略的优先级、时间段、最大最小CU范围等配置。 创建弹性资源池并添加队列
Flink版本。当用户设置“feature”为“basic”时,该参数生效。用户可通过与“feature”参数配合使用,指定作业运行使用的DLI基础Flink镜像的版本。 image 否 String 自定义镜像。格式为:组织名/镜像名:镜像版本。 当用户设置“feature”为“
开通自动续费”。 批量资源开通自动续费:选择需要开通自动续费的资源,单击列表左上角的“更多 > 开通自动续费”。 选择续费时长,并根据需要设置自动续费次数,单击“开通”。 图3 开通自动续费 父主题: 续费