检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
列。具体可以参考《用户指南》中的“创建队列”章节。 在DLI管理控制台,单击左侧导航栏中的“SQL编辑器”,可进入SQL作业“SQL编辑器”页面。 在“SQL编辑器”页面右侧的编辑窗口中,输入如下创建数据库的SQL语句,单击“执行”。阅读并同意隐私协议,单击“确定”。 若test
具体该参数设置步骤如下: 登录DLI管理控制台,单击“作业管理 > SQL作业”,对应SQL作业行的操作列,单击“编辑”按钮,跳转到“SQL编辑器”。 在“SQL编辑器”中,单击“设置”,参考如下图配置添加参数。 图1 设置参数 重新执行作业。 父主题: SQL作业运维类
建模和预测,建模是指提取数据中有用的统计信息和数据特征,预测是指使用模型对未来的数据进行推测。DLI服务提供了一系列随机线性模型,帮助用户在线实时进行模型的建模和预测。 ARIMA (Non-Seasonal) ARIMA(Auto-Regressive Integrated Moving
步骤2:使用DLI将CSV数据转换为Parquet数据 在DLI控制台总览页面左侧,单击“SQL编辑器”,进入SQL作业编辑器页面。 在SQL作业编辑器左侧,选择“数据库”页签,单击创建名字为demo的数据库。 在DLI的SQL编辑窗口,执行引擎选择“spark”,队列选择“default”,数据库选择
注意:创建队列时,队列类型必须要选择为:SQL队列。 前期准备 创建DLI数据库 登录DLI管理控制台,选择“SQL编辑器”,在SQL编辑器中“执行引擎”选择“spark”,“队列”选择已创建的SQL队列。 在SQL编辑器中输入以下语句创建数据库“testdb”。详细的DLI创建数据库的语法可以参考创建DLI数据库。
作业优先级的调整需要停止作业进行编辑,并提交运行才能生效。 对于Flink作业,请参考开启Flink作业动态扩缩容设置flink.dli.job.scale.enable=true开启动态扩缩容功能,再设置作业优先级。 调整作业优先级需要停止作业后编辑,并重新提交运行才能生效。 设置Flink
autoBroadcastJoinThreshold=-1,具体操作如下: 登录DLI管理控制台,单击“作业管理 > SQL作业”,在对应报错作业的“操作”列,单击“编辑”进入到SQL编辑器页面。 单击“设置”,在参数设置中选择“spark.sql.autoBroadcastJoinThreshold”参数,其值设置为“-1”。
在管理控制台的左侧,单击“SQL编辑器”。 在“SQL编辑器”页面左侧导航栏选择“数据库”页签,鼠标左键单击需要导入数据的表对应的数据库名,进入“表”区域。 鼠标左键单击对应表右侧的,在列表菜单中选择“导入”,弹出“导入数据”页面。 图2 SQL编辑器-导入数据 在“导入数据”页面,参见表1填写相关信息。
在对应数据库的操作列,选择“更多> 标签”。 进入标签管理页面,显示当前数据库的标签信息。 单击“添加/编辑标签”,弹出“添加/编辑标签”对话框,配置参数。 输入框输入内容后单击'添加',将标签添加到输入框中。 图1 数据库添加/编辑标签 表1 标签配置参数 参数 参数说明 标签键 您可以选择: 在输入框的下拉列表中选择预定义标签键。
确定类别数目,运行K-Means算法可以取得比较好的聚类效果。但是对于在线实时流数据,数据是在不断变化和演进,类别数目极有可能发生变化,DLI服务提供一种能够应对此类场景,无需提前设定聚类数目,并且低延时的在线聚类算法。 算法大致思想为:定义一种距离函数,两两数据点之间如果距离小
确定类别数目,运行K-Means算法可以取得比较好的聚类效果。但是对于在线实时流数据,数据是在不断变化和演进,类别数目极有可能发生变化,DLI服务提供一种能够应对此类场景,无需提前设定聚类数目,并且低延时的在线聚类算法。 算法大致思想为:定义一种距离函数,两两数据点之间如果距离小
调整作业优先级需要停止作业后编辑,并重新提交运行才能生效。 Spark作业操作步骤 在“Spark参数”中配置如下参数,其中x为优先级取值。 spark.dli.job.priority=x 登录DLI管理控制台。 单击“作业管理 > Spark作业”。 选择待配置的作业,单击操作列下的编辑。 在“Spark参数”中配置spark
Key; JOIN数据倾斜解决方案 登录数据湖探索管理控制台,选择“SQL作业”,在要修改的作业所在行的“操作”列,单击“编辑”进入SQL编辑器界面。 在SQL编辑器界面,单击“设置”,在“配置项”尝试添加以下几个Spark参数进行解决。 参数项如下,冒号前是配置项,冒号后是配置项的值。
在对应队列的“操作”列,选择“更多> 标签”。 进入标签管理页面,显示当前队列的标签信息。 单击“添加/编辑标签”,弹出“添加/编辑标签”对话框,配置参数。配置完成一个标签,单击“添加”将标签添加到输入框中。 图1 添加/编辑标签 表1 标签配置参数 参数 参数说明 标签键 您可以选择: 在输入框的下拉列表中选择预定义标签键。
资源,即如果高优先级作业计算资源不足,则会减少低优先级作业的计算资源 SQL队列上运行的作业优先级默认为3。 调整作业优先级需要停止作业后编辑,并重新提交运行才能生效。 设置SQL作业优先级 在“ 设置 > 参数配置”中配置如下参数,其中x为优先级取值。 spark.sql.dli
Latest Partition 特性,仅在 Flink STREAMING 模式下支持。 创建Flink OpenSource SQL作业时,在作业编辑界面的“运行参数”处,“Flink版本”需要选择“1.15”,勾选“保存作业日志”并设置保存作业日志的OBS桶,方便后续查看作业日志。 数据类型的使用,请参考Format章节。
创建数据库的入口有两个,分别在“数据管理”和“SQL编辑器”页面。 在“数据管理”页面创建数据库。 在管理控制台左侧,单击“数据管理”>“库表管理”。 在库表管理页面右上角,单击“创建数据库”可创建数据库。 在“SQL编辑器”页面创建数据库。 在管理控制台左侧,单击“SQL编辑器”。 在左侧导航栏单击“数据库”页签右侧可创建数据库。
和“SQL编辑器”页面。 在“数据管理”页面导出数据。 在管理控制台左侧,单击“数据管理”>“库表管理”。 单击需导出数据的表对应的数据库,进入该数据的“表管理”页面。 在对应表(DLI表)的“操作”栏中选择“更多”中的“导出”,弹出“导出数据”页面。 在“SQL编辑器”页面导出数据。
在对应队列的“操作”列,选择“更多”>“标签”。 进入标签管理页面,显示当前队列的标签信息。 单击“添加/编辑标签”,弹出“添加/编辑标签”对话框,配置参数。配置完成一个标签,单击“添加”将标签添加到输入框中。 图1 添加/编辑标签 表1 标签配置参数 参数 参数说明 标签键 您可以选择: 在输入框的下拉列表中选择预定义标签键。
检查读取的数据量 确认客户验证数据量的方式是否正确。客户验证的方式如下: 通过OBS下载数据文件。 通过文本编辑器打开数据文件,发现数据量缺失。 根据该验证方式,初步定位是因为文件数据量较大,文本编辑器无法全部读取。 通过执行查询语句,查询OBS数据进一步进行确认,查询结果确认数据量正确。 因此,该问题为验证方式不正确造成。