检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
DLI允许用户提交编译为Jar包的Spark作业,Jar包中包含了Jar作业执行所需的代码和依赖信息,用于在数据查询、数据分析、机器学习等特定的数据处理任务中使用。在提交Spark Jar作业前,将程序包上传至OBS,并将程序包与数据和作业参数一起提交以运行作业。 本例介绍通过DLI控制台提交Jar作业
可通过交互式会话(session)和批处理(batch)方式提交计算任务。通过在DLI提供的弹性资源池队列上提交作业,简化了资源管理和作业调度。 支持多种数据源和格式,提供了丰富的数据处理能力,包括但不限于SQL查询、机器学习等。详细操作请参考创建Spark作业。 适用于大规模数据处理和分析,如机器学
为NULL ON EMPTY或NULL ON ERROR。默认值可以是字面量或表达式。如果默认值本身引发错误,那么它将执行ON EMPTY和ON ERROR的错误行为。 -- "true" JSON_VALUE('{"a": true}', '$.a') -- TRUE JSON_VALUE('{"a":
type 是 输出数据编码格式,当前支持“parquet”格式和“csv”格式。 当schema为obs时,输出数据编码格式仅支持“parquet”格式。 当schema为hdfs时,输出数据编码格式支持“parquet”格式和“csv”格式。 format.field-delimiter
type 是 输出数据编码格式,当前支持“parquet”格式和“csv”格式。 当schema为obs时,输出数据编码格式仅支持“parquet”格式。 当schema为hdfs时,输出数据编码格式支持“parquet”格式和“csv”格式。 format.field-delimiter
配置该项。 注意事项 在创建Source Stream时可以指定时间模型以便在后续计算中使用,当前DLI支持Processing Time和Event Time两种时间模型,具体使用语法可以参考配置时间模型。 示例 从OBS的桶读取对象为input.csv的文件,文件以'\n'划行,
配置该项。 注意事项 在创建Source Stream时可以指定时间模型以便在后续计算中使用,当前DLI支持Processing Time和Event Time两种时间模型,具体使用语法可以参考配置时间模型。 示例 从OBS的桶读取对象为input.csv的文件,文件以'\n'划行,
初步认识华为云数据湖探索,了解数据湖探索的基本功能、应用场景、基本概念和使用限制,有助于您更准确地匹配实际业务。 产品介绍 什么是DLI 应用场景 使用限制 与其他云服务的关系 03 入门 购买DLI队列后,您可以运行SQL作业和Spark作业,开启您的数据湖探索使用之旅。 使用前须知 准备工作
encode 是 输出数据编码格式,当前支持“parquet”格式和“csv”格式。 当schema为obs时,输出数据编码格式仅支持“parquet”格式。 当schema为hdfs时,输出数据编码格式支持“parquet”格式和“csv”格式。 ak 否 输出到OBS时该参数必填。用于
encode 是 输出数据编码格式,当前支持“parquet”格式和“csv”格式。 当schema为obs时,输出数据编码格式仅支持“parquet”格式。 当schema为hdfs时,输出数据编码格式支持“parquet”格式和“csv”格式。 ak 否 输出到OBS时该参数必填。用于
值为true或者false,默认为true。 当OBS不支持append模式,且编码格式为csv和json时,可将该参数设置为false。Append为false时需要设置max_record_num_per_file和dump_interval。 max_record_num_per_file 否
值为true或者false,默认为true。 当OBS不支持append模式,且编码格式为csv和json时,可将该参数设置为false。Append为false时需要设置max_record_num_per_file和dump_interval。 max_record_num_per_file 否
数据库:数据库是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。数据库通常用于存储、检索和管理结构化数据,由多个数据表组成,这些数据表通过键和索引相互关联。 · 表:表是数据库最重要的组成部分之一,它由行和列组成。每一行代表一个数据项,每一列代表数据的一个属性或特征。表用于组织和存储特定类型
件的大小和数量。详见滚动策略相关参数说明。 Part文件生命周期 为了在下游使用 FileSink 作为输出,需要了解生成的输出文件的命名和生命周期。 Part 文件可以处于以下三种状态中的任意一种: In-progress:当前正在写入的 Part 文件处于 in-progress
件的大小和数量。详见滚动策略相关参数说明。 Part文件生命周期 为了在下游使用 FileSink 作为输出,需要了解生成的输出文件的命名和生命周期。 Part 文件可以处于以下三种状态中的任意一种: In-progress:当前正在写入的 Part 文件处于 in-progress
件的大小和数量。详见滚动策略相关参数说明。 Part文件生命周期 为了在下游使用 FileSink 作为输出,需要了解生成的输出文件的命名和生命周期。 Part 文件可以处于以下三种状态中的任意一种: In-progress:当前正在写入的 Part 文件处于 in-progress