检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
》中“创建集群”章节。 请确保已创建DWS数据库表。 该场景作业需要运行在DLI的独享队列上,因此要与DWS集群建立增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。 如何设置安全组规则,请参见《虚拟私有云用户指南》中“安全组”章节。
算法使用的随机种子值。 4010 numClusters 否 分类数,默认包含异常和非异常两类。 2 dataViewMode 否 算法学习模式。 history:学习所有历史数据。 horizon:仅考虑最近一段时间历史数据,默认为4个窗口。 history 示例 对于数据流MyTable
field_delimiter 否 属性分隔符。 当“encode”参数为csv时,该参数必选。用户可以自定义属性分隔符。 当“encode”参数为json时,该参数不需要填写。 quote 否 可以指定数据格式中的引用符号,在两个引用符号之间的属性分隔符会被当做普通字符处理。 当引用符号为双引号时,请设置quote
field_delimiter 否 属性分隔符。 当“encode”参数为csv时,该参数必选。用户可以自定义属性分隔符。 当“encode”参数为json时,该参数不需要填写。 quote 否 可以指定数据格式中的引用符号,在两个引用符号之间的属性分隔符会被当做普通字符处理。 当引用符号为双引号时,请设置quote
DLI服务目前支持:SQL作业、Spark作业和Flink作业。您可以根据业务类型以及数据量大小灵活选择DLI的计费方式。 价格说明 计费说明 计费详情和样例 04 使用 您可以详细了解DLI管理控制台的功能,常用SQL语法。除此之外,还可以实时查看监控指标及审计日志,以便及时了解DLI的健康状态。
果该桶未授权,需要单击“立即授权”进行授权。配置该参数,可以在作业异常失败后,将作业日志保存到用户的OBS桶下,方便用户定位故障原因。 图3 保存作业日志 勾选“作业异常告警”,选择1中创建的“SMN主题”。配置该参数,可以在作业异常情况下,向用户指定邮箱或者手机发送消息通知,方便客户及时感知异常。
成的目录创建非DLI表,通过DLI SQL进行下一步处理分析,并且输出数据目录支持分区表结构。适用于数据转储、大数据分析、备份或活跃归档、深度或冷归档等场景。 语法格式 1 2 3 4 5 6 7 create table filesystemSink ( attr_name
成的目录创建非DLI表,通过DLI SQL进行下一步处理分析,并且输出数据目录支持分区表结构。适用于数据转储、大数据分析、备份或活跃归档、深度或冷归档等场景。 语法格式 1 2 3 4 5 6 7 create table filesystemSink ( attr_name
Kafka sink会保证至少一次将数据插入Kafka topic。这意味着,Flink可以将具有相同key的重复记录写入Kafka topic。因此,upsert-kafka 连接器可以实现幂等写入。 语法格式 1 2 3 4 5 6 7 8 9 10 11
成的目录创建非DLI表,通过DLI SQL进行下一步处理分析,并且输出数据目录支持分区表结构。适用于数据转储、大数据分析、备份或活跃归档、深度或冷归档等场景。 对象存储服务(Object Storage Service,简称OBS)是一个基于对象的海量存储服务,为客户提供海量、安全、高可靠、低成本的数据存储能力。
成的目录创建非DLI表,通过DLI SQL进行下一步处理分析,并且输出数据目录支持分区表结构。适用于数据转储、大数据分析、备份或活跃归档、深度或冷归档等场景。 对象存储服务(Object Storage Service,简称OBS)是一个基于对象的海量存储服务,为客户提供海量、安全、高可靠、低成本的数据存储能力。
Spark作业在执行shuffle类语句,包括group by、join等场景时,常常会出现数据倾斜的问题,导致作业任务执行缓慢。 该问题可以通过设置spark.sql.shuffle.partitions提高shuffle read task的并行度来进行解决。 设置spark
-keystore transport-keystore.jks 使用keytool工具生成keystore和truststore文件后,可以在文件夹中看到transport-keystore.jks文件,使用如下命令验证keystore文件和证书信息。 keytool -list
过统一身份认证服务(Identity and Access Management,简称IAM)细粒度鉴权,可以通过在IAM创建策略来管理DLI的权限控制。两种权限控制机制可以共同使用,没有冲突。 发布区域:全部 创建用户并授权使用DLI DLI自定义策略 DLI常用操作与系统权限关系
Temporal Tables 上的 inner join 示例 假如Rates是一个 Temporal Table Function, join 可以使用 SQL 进行如下的表达: SELECT o_amount, r_rate FROM Orders, LATERAL TABLE
(sub_query); 关键字 ALL:返回重复的行。为默认选项。其后只能跟*,否则会出错。 DISTINCT:从结果集移除重复的行。 groupby_expression:可以是单字段,多字段,也可以是聚合函数,字符串函数等。 operator:此操作符包含等式操作符与不等式操作符,及IN,NOT
DLI服务的Spark组件是全托管式服务,用户对Spark组件不感知,仅仅可以使用该服务,且接口为封装式接口。具体请参考《数据湖探索用户指南》。 MRS服务Spark组件的是建立在客户的购买MRS服务所分配的虚机上,用户可以根据实际需求调整及优化Spark服务,支持各种接口调用。具体请参考《MapReduce服务开发指南》。
(sub_query); 关键字 ALL:返回重复的行。为默认选项。其后只能跟*,否则会出错。 DISTINCT:从结果集移除重复的行。 groupby_expression:可以是单字段,多字段,也可以是聚合函数,字符串函数等。 operator:此操作符包含等式操作符与不等式操作符,及IN,NOT
功。 单次最多支持删除20个标签 删除时不对标签字符集范围做校验。 删除时tags结构体不能缺失,key不能为空,或者空字符串。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
聚类算法是非监督算法中非常典型的一类算法,经典的K-Means算法通过提前确定类别数目,计算数据点之间的距离来分类。对于离线静态数据集,我们可以依赖领域中知识来确定类别数目,运行K-Means算法可以取得比较好的聚类效果。但是对于在线实时流数据,数据是在不断变化和演进,类别数目极有可能发生变化,DLI服务