检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
义镜像,将作业运行需要的依赖(文件、jar包或者软件)、私有能力等内置到自定义镜像中,以此改变Spark作业和Flink作业的容器运行环境,增强作业的功能、性能。 例如,在自定义镜像中加入机器学习相关的Python包或者C库,可以通过这种方式帮助用户实现功能扩展。 用户使用自定义
单击“创建凭据”。配置凭据基本信息。 分别配置AK和SK对应的凭据键值 本例中第一行key对应的value为用户的AK(Access Key Id) 本例中第二行key对应的value为用户的SK(Secret Access Key) 图3 在DEW中配置访问凭据 后续在DLI Spark jar作业编辑界面设置访问凭据的参数示例。
DOUBLE 返回所有输入值之间的数字字段的样本标准偏差。 VAR_POP(value) DOUBLE 返回所有输入值之间的数字字段的总体方差(总体标准偏差的平方)。 VAR_SAMP(value) DOUBLE 返回所有输入值之间的数字字段的样本方差(样本标准偏差的平方)。 示例 COUNT(*)
expression) VAR_SAMP() 的同义方法。 RANK() 返回值在一组值中的排名。结果是 1 加上分区顺序中当前行之前或等于当前行的行数。排名在序列中不一定连续。 DENSE_RANK() 返回值在一组值中的排名。结果是一加先前分配的等级值。与函数 rank 不同,dense_rank
DOUBLE 返回所有输入值之间的数字字段的样本标准偏差。 VAR_POP(value) DOUBLE 返回所有输入值之间的数字字段的总体方差(总体标准偏差的平方)。 VAR_SAMP(value) DOUBLE 返回所有输入值之间的数字字段的样本方差(样本标准偏差的平方)。 示例 COUNT(*)
据分析、备份或活跃归档、深度或冷归档等场景。 考虑到输入流可以是无界的,每个桶中的数据被组织成有限大小的Part文件。完全可以配置为基于时间的方式往桶中写入数据,比如可以设置每个小时的数据写入一个新桶中。即桶中将包含一个小时间隔内接收到的记录。 桶目录中的数据被拆分成多个Part
据分析、备份或活跃归档、深度或冷归档等场景。 考虑到输入流可以是无界的,每个桶中的数据被组织成有限大小的Part文件。完全可以配置为基于时间的方式往桶中写入数据,比如可以设置每个小时的数据写入一个新桶中。即桶中将包含一个小时间隔内接收到的记录。 桶目录中的数据被拆分成多个Part
据分析、备份或活跃归档、深度或冷归档等场景。 考虑到输入流可以是无界的,每个桶中的数据被组织成有限大小的Part文件。完全可以配置为基于时间的方式往桶中写入数据,比如可以设置每个小时的数据写入一个新桶中。即桶中将包含一个小时间隔内接收到的记录。 桶目录中的数据被拆分成多个Part
创建source流从对象存储服务(OBS)获取数据。DLI从OBS上读取用户存储的数据,作为作业的输入数据。适用于大数据分析、原生云应用程序数据、静态网站托管、备份/活跃归档、深度/冷归档等场景。 对象存储服务(Object Storage Service,简称OBS)是一个基于对象的海量存储服务,为客户提供海量、安
创建source流从对象存储服务(OBS)获取数据。DLI从OBS上读取用户存储的数据,作为作业的输入数据。适用于大数据分析、原生云应用程序数据、静态网站托管、备份/活跃归档、深度/冷归档等场景。 对象存储服务(Object Storage Service,简称OBS)是一个基于对象的海量存储服务,为客户提供海量、安
触发周期, 当编码格式为orc或者配置了DIS通知提醒时需进行配置。 在orc编码方式中,该配置表示周期到达时,即使文件记录数未达到最大个数配置,也将文件上传到OBS上。 在DIS通知提醒功能中,该配置表示每周期往DIS发送一个通知提醒,表明该目录已写完。 dis_notice_channel
触发周期, 当编码格式为orc或者配置了DIS通知提醒时需进行配置。 在orc编码方式中,该配置表示周期到达时,即使文件记录数未达到最大个数配置,也将文件上传到OBS上。 在DIS通知提醒功能中,该配置表示每周期往DIS发送一个通知提醒,表明该目录已写完。 dis_notice_channel
选择MRS的HDFS Namenode配置,在“自定义”中添加配置参数。 图1 HDFS服务配置 其中,core-site值名称“hadoop.proxyuser.myname.hosts”和“hadoop.proxyuser.myname.groups”中的“myname”为传入的krb认证用户名称。
选择MRS的HDFS Namenode配置,在“自定义”中添加配置参数。 图1 HDFS服务配置 其中,core-site值名称“hadoop.proxyuser.myname.hosts”和“hadoop.proxyuser.myname.groups”中的“myname”为传入的krb认证用户名称。
connector.partitioned-by 否 分区字段,多个字段以“,”分隔 示例 从kafka中读取数据以parquet的格式写到obs的bucketName桶下的fileName目录中。 create table kafkaSource( attr0 string, attr1
分类数,默认包含异常和非异常两类。 2 dataViewMode 否 算法学习模式。 history:学习所有历史数据。 horizon:仅考虑最近一段时间历史数据,默认为4个窗口。 history 示例 对于数据流MyTable中的c字段运行异常检测算法,当异常分大于0.8时输出异常。 1 2
分类数,默认包含异常和非异常两类。 2 dataViewMode 否 算法学习模式。 history:学习所有历史数据。 horizon:仅考虑最近一段时间历史数据,默认为4个窗口。 history 示例 对于数据流MyTable中的c字段运行异常检测算法,当异常分大于0.8时输出异常。 1 2
connector.partitioned-by 否 分区字段,多个字段以“,”分隔 示例 从kafka中读取数据以parquet的格式写到obs的bucketName桶下的fileName目录中。 create table kafkaSource( attr0 string, attr1
包括但不限于SQL查询、机器学习等。详细操作请参考创建Spark作业。 适用于大规模数据处理和分析,如机器学习训练、日志分析、大规模数据挖掘等场景。 管理Jar作业的程序包 DLI允许用户提交编译为Jar包的Flink或Spark作业,Jar包中包含了Jar作业执行所需的代码和
使用DLI查询数据前,需要将数据文件上传至OBS中。 步骤2:创建弹性资源池并添加队列 创建提交作业所需的计算资源。 步骤3:创建数据库 DLI元数据是SQL作业开发的基础。在执行作业前您需要根据业务场景定义数据库和表。 步骤4:创建表 数据库创建完成后,需要在数据库db1中基于OBS上的样本数据创建表。 步骤5:查询数据