检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
202103241606060001 appShop 2021-03-24 16:06:06 200 180 2021-03-24 16:10:06 0001 Alice 330106 202103251202020001 miniAppShop 2021-03-25 12:02:02
ORDER BY like_count desc limit 10 单击“执行”,运行结果如图2所示: 图2 查询结果 单击“结果图形化”,对结果进行图形展示: 图3 结果图形化 分析出10大评级最差的商品 执行以下SQL语句,可以分析出10大评级最差的商品。 SELECT DISTINCT
DLI将Flink作业的输出数据输出到云搜索服务CSS的Elasticsearch中。Elasticsearch是基于Lucene的当前流行的企业级搜索服务器,具备分布式多用户的能力。其主要功能包括全文检索、结构化搜索、分析、聚合、高亮显示等。能为用户提供实时搜索、稳定可靠的服务。适用于日志分析、站内搜索等场景。
流中的数据记录被解释为 UPSERT,也称为 INSERT/UPDATE,因为任何具有相同 key 的现有行都被覆盖。另外,value 为空的消息将会被视作为 DELETE 消息。 前提条件 该场景作业需要运行在DLI的独享队列上,因此要与kafka集群建立增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。
DML语法定义 约束限制 Flink SQL 对于标识符(表、属性、函数名)有类似于 Java 的词法约定: 不管是否引用标识符,都保留标识符的大小写。 且标识符需区分大小写。 与 Java 不一样的地方在于,通过反引号,可以允许标识符带有非字母的字符(如:"SELECT a AS
REPLACE,表示需要对已有的函数内容进行功能替换并实时生效。 该功能开启当前需要提交工单开通白名单。 如果要在所有SQL队列上立即生效,需要分别选择SQL队列执行一遍:CREATE OR REPLACE xxx FUNCTION ...,否则没有执行的队列可能延迟0-12小时生效。 如果当前运行的作业中使用
参考创建Flink OpenSource作业,创建flink opensource sql作业,输入以下作业脚本,并提交运行。该作业模拟从kafka读取数据,并关联hive维表对数据进行打宽,并输出到print。 如下脚本中的加粗参数请根据实际环境修改。 CREATE CATALOG myhive
area_id VARCHAR, primary key(order_id) ); 在PostgreSQL中执行下列SQL语句。如果不执行如下命令,后续Flink作业将会运行报错,具体报错信息详情参见错误信息。 ALTER TABLE test.cdc_order REPLICA IDENTITY
id是唯一的。如果作为Document id的字段存在重复值,则在执行插入es时,重复id的Document将会被覆盖。 该特性可以用作容错解决方案。当插入数据执行一半时,DLI作业失败,会有部分数据已经插入到es中,这部分为冗余数据。如果设置了Document id,则在重新执行DLI作业时,会覆盖上一次的冗余数据。
write.precombine.field 是 无 String 数据合并字段 基于此字段的大小来判断消息是否进行更新。 如果您没有设置该参数,则系统默认会按照消息在引擎内部处理的先后顺序进行更新。 write.payload.class 否 无 String write.payload
可以同时选中该分组中的所有程序包和文件。创建程序包操作请参考创建DLI程序包。 访问元数据 是否通过Spark作业访问元数据。具体请参考《数据湖探索开发指南》 是否重试 作业失败后是否进行重试。 选择“是”需要配置以下参数: “最大重试次数”:设置作业失败重试次数,最大值为“100”。
参考创建Flink OpenSource作业,创建flink opensource sql作业,输入以下作业运行脚本,并提交运行。 注意:创建作业时,在作业编辑界面的“运行参数”处,“Flink版本”选择“1.12”,勾选“保存作业日志”并设置保存作业日志的OBS桶,方便后续查看作
MyPartitioner' connector.sink.ignore-retraction 否 是否忽略回撤消息,默认为false。回撤消息将以null值写入kafka update-mode 否 支持:'append', 'retract'及'upsert'三种写入模式 connector.properties
OpenSource作业,创建flink opensource sql作业,输入以下作业脚本,并提交运行。该作业脚本将Kafka作为数据源,ClickHouse作业结果表。 注意:创建作业时,在作业编辑界面的“运行参数”处,“Flink版本”选择“1.12”,勾选“保存作业日志”并设置保存作业日志
即在处理了多少行数据之后,Spark会进行一次分析,用来决定是否需要跳过部分聚合。 spark.sql.aggregate.adaptivePartialAggregationRatio:该参数是判断是否跳过的阈值,用于判断“已处理的group分组/已处理的行数”的比例。如果这
步骤4:创建增强型跨源连接:DLI上创建连接Kafka和CSS的跨源连接,打通网络。 步骤5:运行作业:DLI上创建和运行Flink OpenSource作业。 步骤6:发送数据和查询结果:Kafka上发送流数据,在CSS上查看运行结果。 步骤1:创建队列 登录DLI管理控制台,在左侧导航栏单击“资源管理
单击“更多”中的“语法校验”,确认SQL语句书写是否正确。 如果语法校验失败,请参考《数据湖探索SQL语法参考》检查SQL语句准确性。 如果语法校验通过,单击“执行”,阅读并同意隐私协议,单击“确定”后执行SQL语句。 SQL语句执行成功后,在SQL作业编辑窗口下方会显示执行结果。 查看作业执行结果。 在查看结
get_json_object函数用于根据所给路径对json对象进行解析,当json对象非法时将返回NULL。 命令格式 get_json_object(string <json>, string <path>) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 json 是 STRING
参考创建Flink OpenSource作业,创建flink opensource sql作业,输入以下作业脚本,提交运行作业。 注意:创建作业时,在作业编辑界面的“运行参数”处,“Flink版本”选择“1.12”,勾选“保存作业日志”并设置保存作业日志的OBS桶,方便后续查看作业日志
fetch-size 否 0 Integer 每次从数据库拉取数据的行数。若指定为0,则会忽略sql hint。 scan.auto-commit 否 true Boolean 是否设置自动提交,以确定事务中的每个statement是否自动提交 pwd_auth_name 否 无 String