创建并管理SQL作业-华为云

数据湖探索 DLI-DLI预置的SQL模板中TPC-H样例数据说明:TPC-H样例数据简介

TPC-H样例数据简介 TPC-H（商业智能计算测试）是交易处理效能委员会（TPC,Transaction Processing Performance Council) 组织制定的用来模拟决策支持类应用的一个测试集。目前，在学术界和工业界普遍用来评价决策支持技术方面应用的性能。这种商业测试可以全方位评测系统的整体商业计算综合能力，对厂商的要求更高，同时也具有普遍的商业实用意义，目前在银行信贷分析和信用卡分析、电信运营分析、税收分析、烟草行业决策分析中都有广泛的应用。 TPC-H 基准测试是由 TPC-D（由 TPC 组织于 1994 年制定的标准，用于决策支持系统方面的测试基准）发展而来的。TPC-H用3NF实现了一个数据仓库，共包含8个基本关系，其数据量可以设定从1G~3T不等。TPC-H 基准测试包括 22 个查询(Q1~Q22)，其主要评价指标是各个查询的响应时间，即从提交查询到结果返回所需时间。TPC-H 基准测试的度量单位是每小时执行的查询数( QphH@size)，其中“H”表示每小时系统执行复杂查询的平均次数，“size”表示数据库规模的大小，能够反映出系统在处理查询时的能力。TPC-H 是根据真实的生产运行环境来建模的,这使得它可以评估一些其他测试所不能评估的关键性能参数。总而言之，TPC组织颁布的TPC-H 标准满足了数据仓库领域的测试需求,并且促使各个厂商以及研究机构将该项技术推向极限。本示例将演示 DLI 直接对存储在OBS中的TPC-H数据集进行查询的操作，DLI已经预先生成了100M的TPC-H-2.18的标准数据集，已将数据集上传到了OBS的tpch文件夹中，并且赋予了只读访问权限，方便用户进行查询操作。

数据湖探索 DLI 创建并管理SQL作业模板

数据湖探索 DLI-DLI预置的SQL模板中TPC-H样例数据说明:TPC-H的测试和度量指标

TPC-H的测试和度量指标 TPC-H 测试分解为3 个子测试：数据装载测试、Power测试和Throughput测试。建立测试数据库的过程被称为装载数据，装载测试是为测试DBMS装载数据的能力。装载测试是第一项测试，测试装载数据的时间，这项操作非常耗时。Power 测试是在数据装载测试完成后，数据库处于初始状态，未进行其它任何操作，特别是缓冲区还没有被测试数据库的数据，被称为raw查询。Power测试要求22 个查询顺序执行1 遍，同时执行一对RF1 和RF2 操作。最后进行Throughput 测试，也是最核心和最复杂的测试，更接近于实际应用环境，与Power 测试比对SUT 系统的压力有非常大的增加，有多个查询语句组，同时有一对RF1 和RF2 更新流。

数据湖探索 DLI 创建并管理SQL作业模板

数据湖探索 DLI-使用SQL编辑器提交SQL作业:“执行历史（最近一天）”和“查看结果”

“执行历史（最近一天）”和“查看结果” SQL作业执行完成后可以在编辑区域下方查看执行历史和执行结果。执行历史（最近一天）可以通过以下方式筛选执行历史：在右上角选择队列名称或输入执行语句在列表中选择创建时间顺序/倒序排列在列表中选择作业状态图3 SQL作业执行历史表4 SQL作业执行历史说明区域描述执行历史（最近一天）执行历史显示最近一天提交的作业的信息。包括：队列：队列名称用户名：执行SQL的用户类型：SQL作业的类型状态：SQL作业的执行状态执行语句创建时间操作：编辑：重新编辑SQL语句 SparkUI：跳转至SparkUI查看SQL语句执行进程说明：新建队列，运行作业时会重新拉集群，大概需要10分钟左右才能拉好集群，在集群创建好之前单击SparkUI会导致缓存空的projectID，从而导致无法查看SparkUI。建议使用专属队列，集群不会被释放，就不会有该问题，或者提交作业后等一段时间再查看SparkUI，确保集群已经拉好了，不要立即单击SparkUI。目前DLI配置SparkUI只展示最新的100条作业信息。 default队列下运行的作业或者该作业为同步作业时不支持该操作。更多：以下操作根据SQL类型和运行状态的不同显示会有差异，请以实际界面为准。终止：正在运行或提交中的SQL支持终止操作。重新执行：重新执行该SQL语句。查看结果：QUERY作业支持查看作业执行结果。导出结果：QUERY作业这次导出作业运行结果到指定OBS路径下。归档日志：SQL语句运行日志存储的OBS路径。异步DDL和QUERY语句支持将结果下载到本地说明： default队列下运行的作业或者该作业为同步作业时不支持归档日志操作。异步DDL和QUERY语句支持将结果下载到本地。操作如下：单击执行成功的异步DDL或QUERY语句“操作”列中的“下载到本地”，在提示窗口单击“确认”。此时，“操作”列中的“下载到本地”将变为“立即下载”。单击“立即下载”，将对应结果下载到本地。

数据湖探索 DLI 创建并管理SQL作业

数据湖探索 DLI-使用SQL编辑器提交SQL作业:SQL作业编辑窗口

SQL作业编辑窗口页面右侧上方为SQL作业编辑窗口，参数说明请参考表2。操作栏下方为SQL语句编辑区。快捷键介绍具体请参考表3。图2 SQL作业编辑窗口表2 SQL作业编辑窗口说明序号按键&下拉列描述 1 执行引擎 SQL作业支持Spark和Trino两种引擎： Spark引擎适用于离线分析。 Trino引擎适用于交互式分析。 2 队列下拉选择需要使用的队列。如果没有可用队列，此处显示“default”队列，default队列为体验使用，建议重新创建队列。具体队列创建可以参考创建弹性资源池和在弹性资源池中添加队列。 SQL作业只能在队列类型为“SQL队列”下执行。 3 数据库下拉选择需要使用的数据库。如果没有可用数据库，此处显示“default”默认数据库。数据库创建操作详见创建数据库和表。说明：如果SQL语句中指定了表所在的数据库，则此处选择的数据库无效。 4 执行执行作业编辑窗口中的SQL语句。 5 格式化格式化SQL语句。 6 语法参考可跳转至《数据湖探索 SQL语法参考》手册。 7 设置包括设置“参数设置”和“标签”。参数设置：以“key/value”的形式设置提交SQL作业的配置项。详细内容请参见《数据湖探索SQL语法参考》。标签：以“key/value”的形式设置SQL作业的标签。 8 更多包括：语法校验：判断SQL语句编写是否正确。设为模板：将常用的SQL语句设为模板。具体操作请参见SQL模板管理。切换主题：选择白底黑字或黑底白字。表3 快捷键说明快捷键描述 Ctrl+Enter 执行SQL。通过按下键盘上的Ctrl+R或Ctrl + Enter，您可以执行SQL语句。 Ctrl+F 搜索SQL。通过按下键盘上的Ctrl + F，您可以搜索需要的SQL语句。 Shift+Alt+F 格式化SQL。通过按下键盘上的Shift+Alt+F，您可以将SQL语句格式化。 Ctrl+Q 语法校验。通过按下键盘上的Ctrl + Q，您可以对SQL语句进行语法校验。 F11 全屏。通过按下键盘上的F11，您可将SQL作业编辑器窗口全屏。再次按下F11，将从全屏复原。

数据湖探索 DLI 创建并管理SQL作业

云服务器内容精选

创建并管理SQL作业

7*24

备案

专业服务

退订

建议反馈

售前咨询热线