检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
无 String 上传“user.keytab”文件的OBS路径。如果开启了kerberos认证,则必须设置。 properties.connector.kerberos.krb5 否 无 String 上传“krb5.conf”文件的OBS路径。如果开启了kerberos认证,则必须设置。
SQL类型的队列。 数据库名称 选择DLI下已创建的数据库。当前示例为在DLI上创建数据库和表中创建的数据库名,即为“testdb”。 表名 选择DLI下已创建的表名。当前示例为在DLI上创建数据库和表中创建的表名,即为“tablecss”。 导入前清空数据 选择导入前是否清空目的表的数据。当前示例选择为“否”。
步骤。 View只能通过SQL语句进行创建,不能通过“创建表”页面进行创建。 注意事项 当OBS的目录下有同名文件夹和文件时,创建OBS表指向该路径会优先指向文件而非文件夹。 创建数据库和表时,有权限控制,需要对其他用户授权,其他用户才可查看该用户新建的数据库和表。具体请参考常用操作与系统权限关系。
单击对应的Flink作业名称,选择“运行日志”,单击“OBS桶”,根据作业运行的日期,找到对应日志的文件夹。 进入对应日期的文件夹后,找到名字中包含“taskmanager”的文件夹进入,下载获取taskmanager.out文件查看结果日志。 数据结果参考如下: +I(202103251202020001
此处设置keystore.jks文件的位置以及进入这个文件的密钥。在准备工作中生成的keystore.jks文件需要先放到OBS桶中,然后填入ak和sk以及jks文件的具体位置。最后在“es.net.ssl.keystore.pass”填入进入文件的密钥。 .option("es
目录已经存在,系统将返回错误信息,无法执行导出操作。 “Overwrite”:覆盖。在指定目录下新建文件,会删除已有文件。 data_path 是 String 导入或导出的文件路径。 data_type 是 String 导入或导出的数据类型(当前支持csv和json格式)。 database_name
a.logRetentionDuration Delta log文件过期时间。每当Delta log进行checkpoint动作时,会检查是否有需要删除的过期文件,如果有,则删除这些过期文件以防Delta log文件无限增长。 30天
用户安全集群的新登录密码。 krb5_conf 否 String krb5配置文件obs路径。 keytab 否 String keytab配置文件obs路径。 truststore_location 否 String truststore配置文件obs路径。 truststore_password 否
committer小文件写性能 提升对象存储服务(OBS)在处理小文件写入时的性能,提高数据传输效率。 动态Executor shuffle数据优化 提升资源扩缩容的稳定性,当shuffle文件不需要时清理Executor。 支持配置小文件合并 使用SQL过程中,生成的小文件过多时,会导
数据迁移与传输方式概述 导入数据至OBS DLI支持在不迁移数据的情况下,直接访问OBS中存储的数据进行查询分析。 您只需将本地数据导入OBS即可开始使用DLI进行数据分析。 导入数据的具体操作请参考上传对象。 迁移数据至DLI 为了将分散在不同系统中的数据迁移到DLI,确保数据
format 是 (none) String 指定使用格式,这里应该是'avro'。 avro.codec 否 (none) String 仅用于文件系统,avro 压缩编解码器。默认不压缩。目前支持:deflate、snappy、bzip2、xz。 数据类型映射 目前,Avro schema
用户安全集群的新登录密码。 krb5_conf 否 String krb5配置文件obs路径。 keytab 否 String keytab配置文件obs路径。 truststore_location 否 String truststore配置文件obs路径。 truststore_password 否
当前仅支持运行命令ANALYZE TABLE COMPUTE statistics noscan的配置单元存储表,和直接根据数据文件计算统计信息的基于文件的数据源表。 spark.sql.shuffle.partitions 200 为连接或聚合过滤数据时使用的默认分区数。 spark
5。 表1 Spark 2.4.5版本优势 特性 说明 支持配置小文件合并 使用SQL过程中,生成的小文件过多时,会导致作业执行时间过长,且查询对应表时耗时增大,建议对小文件进行合并。 参考如何合并小文件完成合并小文件。 支持修改非分区表或分区表的列注释 修改非分区表或分区表的列注释。
committer小文件写性能 提升对象存储服务(OBS)在处理小文件写入时的性能,提高数据传输效率。 动态Executor shuffle数据优化 提升资源扩缩容的稳定性,当shuffle文件不需要时清理Executor。 支持配置小文件合并 使用SQL过程中,生成的小文件过多时,会导
参数名称 是否必选 参数类型 说明 zip_file 是 String 从OBS上导入的作业zip文件路径,支持填写文件夹,导入文件夹下的所有zip文件。 说明: 文件夹中只能包含zip文件。 is_cover 否 Boolean 如果导入的作业与服务已有的作业同名,是否覆盖服务中已有的作业。
file_num 指定目录的文件数量 storage_size 该目录的Size(bytes) storage_size(unit) 该目录的Size(KB) storage_path 指定目录的完整FS绝对路径 space_consumed 返回文件/目录在集群中占用的实际空间,即它考虑了为集群设置的复制因子
若计算任务超时或失败,则当次计算不收取费用。 数据的存储方式(包括格式,是否压缩)对计算费用有直接的影响。 假设Parquet格式文件为原CSV文件大小的1/4,则数据扫描费用为原CSV文件扫描费用的1/4。 计费规则 表1 数据扫描量计费规则 类型 资源 说明 数据扫描 数据扫描量 仅default
的 json 文档。默认情况下使用内置'json'格式。 请参考Format页面以获取更多详细信息和格式参数。 certificate 否 无 String Elasticsearch集群的证书在OBS中的位置。 仅在开启安全模式,且开启https下需要配置该参数。 请先在CSS
前提条件 配置前,请先购买OBS桶或并行文件系统。大数据场景推荐使用并行文件系统,并行文件系统(Parallel File System)是对象存储服务(Object Storage Service,OBS)提供的一种经过优化的高性能文件系统,提供毫秒级别访问时延,以及TB/s级