云服务器内容精选

  • TPC-H样例数据简介 TPC-H(商业智能计算测试) 是交易处理效能委员会(TPC,Transaction Processing Performance Council) 组织制定的用来模拟决策支持类应用的一个测试集。目前,在学术界和工业界普遍用来评价决策支持技术方面应用的性能。这种商业测试可以全方位评测系统的整体商业计算综合能力,对厂商的要求更高,同时也具有普遍的商业实用意义,目前在银行信贷分析和信用卡分析、电信运营分析、税收分析、烟草行业决策分析中都有广泛的应用。 TPC-H 基准测试是由 TPC-D(由 TPC 组织于 1994 年制定的标准,用于决策支持系统方面的测试基准)发展而来的。TPC-H用3NF实现了一个 数据仓库 ,共包含8个基本关系,其数据量可以设定从1G~3T不等。TPC-H 基准测试包括 22 个查询(Q1~Q22),其主要评价指标是各个查询的响应时间,即从提交查询到结果返回所需时间。TPC-H 基准测试的度量单位是每小时执行的查询数( QphH@size),其中“H”表示每小时系统执行复杂查询的平均次数,“size”表示数据库规模的大小,能够反映出系统在处理查询时的能力。TPC-H 是根据真实的生产运行环境来建模的,这使得它可以评估一些其他测试所不能评估的关键性能参数。总而言之,TPC组织颁布的TPC-H 标准满足了数据仓库领域的测试需求,并且促使各个厂商以及研究机构将该项技术推向极限。 本示例将演示 DLI 直接对存储在OBS中的TPC-H数据集进行查询的操作,DLI已经预先生成了100M的TPC-H-2.18的标准数据集,已将数据集上传到了OBS的tpch文件夹中,并且赋予了只读访问权限,方便用户进行查询操作。
  • TPC-H的测试和度量指标 TPC-H 测试分解为3 个子测试:数据装载测试、Power测试和Throughput测试。建立测试数据库的过程被称为装载数据,装载测试是为测试DBMS装载数据的能力。装载测试是第一项测试,测试装载数据的时间,这项操作非常耗时。Power 测试是在数据装载测试完成后,数据库处于初始状态,未进行其它任何操作,特别是缓冲区还没有被测试数据库的数据,被称为raw查询。Power测试要求22 个查询顺序执行1 遍,同时执行一对RF1 和RF2 操作。最后进行Throughput 测试,也是最核心和最复杂的测试,更接近于实际应用环境,与Power 测试比对SUT 系统的压力有非常大的增加,有多个查询语句组,同时有一对RF1 和RF2 更新流。
  • “执行历史(最近一天)”和“查看结果” SQL作业执行完成后可以在编辑区域下方查看执行历史和执行结果。 执行历史(最近一天) 可以通过以下方式筛选执行历史: 在右上角选择队列名称或输入执行语句 在列表中选择创建时间顺序/倒序排列 在列表中选择作业状态 图3 SQL作业执行历史 表4 SQL作业执行历史说明 区域 描述 执行历史(最近一天) 执行历史显示最近一天提交的作业的信息。包括: 队列:队列名称 用户名:执行SQL的用户 类型:SQL作业的类型 状态:SQL作业的执行状态 执行语句 创建时间 操作: 编辑:重新编辑SQL语句 SparkUI:跳转至SparkUI查看SQL语句执行进程 说明: 新建队列,运行作业时会重新拉集群,大概需要10分钟左右才能拉好集群,在集群创建好之前单击SparkUI会导致缓存空的projectID,从而导致无法查看SparkUI。建议使用专属队列,集群不会被释放,就不会有该问题,或者提交作业后等一段时间再查看SparkUI,确保集群已经拉好了,不要立即单击SparkUI。 目前DLI配置SparkUI只展示最新的100条作业信息。 default队列下运行的作业或者该作业为同步作业时不支持该操作。 更多:以下操作根据SQL类型和运行状态的不同显示会有差异,请以实际界面为准。 终止:正在运行或提交中的SQL支持终止操作。 重新执行:重新执行该SQL语句。 查看结果:QUERY作业支持查看作业执行结果。 导出结果:QUERY作业这次导出作业运行结果到指定OBS路径下。 归档日志:SQL语句运行日志存储的OBS路径。 异步DDL和QUERY语句支持将结果下载到本地 说明: default队列下运行的作业或者该作业为同步作业时不支持归档日志操作。 异步DDL和QUERY语句支持将结果下载到本地。操作如下: 单击执行成功的异步DDL或QUERY语句“操作”列中的“下载到本地”,在提示窗口单击“确认”。此时,“操作”列中的“下载到本地”将变为“立即下载”。 单击“立即下载”,将对应结果下载到本地。
  • SQL作业编辑窗口 页面右侧上方为SQL作业编辑窗口,参数说明请参考表2。 操作栏下方为SQL语句编辑区。快捷键介绍具体请参考表3。 图2 SQL作业编辑窗口 表2 SQL作业编辑窗口说明 序号 按键&下拉列 描述 1 执行引擎 SQL作业支持Spark和Trino两种引擎: Spark引擎适用于离线分析。 Trino引擎适用于交互式分析。 2 队列 下拉选择需要使用的队列。如果没有可用队列,此处显示“default”队列,default队列为体验使用,建议重新创建队列。具体队列创建可以参考创建弹性资源池和在弹性资源池中添加队列。 SQL作业只能在队列类型为“SQL队列”下执行。 3 数据库 下拉选择需要使用的数据库。如果没有可用数据库,此处显示“default”默认数据库。数据库创建操作详见创建数据库和表。 说明: 如果SQL语句中指定了表所在的数据库,则此处选择的数据库无效。 4 执行 执行作业编辑窗口中的SQL语句。 5 格式化 格式化SQL语句。 6 语法参考 可跳转至《 数据湖探索 SQL语法参考》手册。 7 设置 包括设置“参数设置”和“标签”。 参数设置:以“key/value”的形式设置提交SQL作业的配置项。详细内容请参见《 数据湖 探索SQL语法参考》。 标签:以“key/value”的形式设置SQL作业的标签。 8 更多 包括: 语法校验:判断SQL语句编写是否正确。 设为模板:将常用的SQL语句设为模板。具体操作请参见SQL模板管理。 切换主题:选择白底黑字或黑底白字。 表3 快捷键说明 快捷键 描述 Ctrl+Enter 执行SQL。通过按下键盘上的Ctrl+R或Ctrl + Enter,您可以执行SQL语句。 Ctrl+F 搜索SQL。通过按下键盘上的Ctrl + F,您可以搜索需要的SQL语句。 Shift+Alt+F 格式化SQL。通过按下键盘上的Shift+Alt+F,您可以将SQL语句格式化。 Ctrl+Q 语法校验。通过按下键盘上的Ctrl + Q,您可以对SQL语句进行语法校验。 F11 全屏。通过按下键盘上的F11,您可将SQL作业编辑器窗口全屏。再次按下F11,将从全屏复原。