检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Beeline是数据分析师和数据工程师的重要工具之一,适用于大规模数据处理的场景。Beeline提供了的SQL引擎,使得用户可以使用SQL的语言来执行数据查询、数据分析和管理任务。 Kyuubi是一个分布式 SQL 查询引擎,它提供了标准的SQL接口,使用户能够方便地访问和分析存储在大数据平台中的数据。 通
其他服务的操作权限。 CU数量 CU数量为DLI的计算单元数量和管理单元数量总和,CU也是DLI的计费单位,1CU=1核4G。 当前配置的CU数量为运行作业时所需的CU数,不能超过其绑定队列的CU数量。 说明: 当开启TaskManager配置时,为了优化弹性资源池队列的管理,在您设置“单TM
为了提高Kyuubi的访问效率,建议在主机的/etc/hosts 配置Kyuubi主机IP的映射关系。 执行ifconfig查看主机IP地址。 图2 查看主机IP地址 将该IP配置在/etc/hosts文件中。 图3 在/etc/hosts文件中配置IP地址 步骤2:Fine BI安装数据连接驱动
和子网分别创建相应的增强型跨源连接,并绑定所要使用的Flink弹性资源池。 设置DWS和Kafka的安全组,添加入向规则使其对Flink的队列网段放通。参考测试地址连通性分别根据DWS和Kafka的地址测试队列连通性。若能连通,则表示跨源已经绑定成功,否则表示未成功。 连接DWS
时延 指事件从源端算子到达本算子的过程中消耗的时间,单位为毫秒(ms)。 发送的记录数 算子发送数据的记录。 发送的字节数 算子发送的字节数。 接受的字节数 算子接收的字节数。 接受的记录数 算子收到数据的记录。 开始时间 算子运行开始时间。 结束时间 算子运行结束时间。 查看Flink作业执行计划
者生成的表信息写入Print结果表中。 参考增强型跨源连接,根据RDS MySQL所在的虚拟私有云和子网创建相应的增强型跨源,并绑定所要使用的Flink弹性资源池。 设置RDS MySQL的安全组,添加入向规则使其对Flink的队列网段放通。参考测试地址连通性根RDS的地址测试队
SQL作业时,在“SQL编辑器”界面右上角的“设置 > 参数设置”中配置Delta参数。 表1 Delta常见配置项 参数 描述 默认值 spark.databricks.delta.retentionDurationCheck.enabled vacuum清理不再引用的文件时是否进行保留期检查。
当前弹性资源池中的优先级数字越大表示优先级越高。本例设置一条扩缩容策略,默认优先级为1。 1 时间段 首条扩缩容策略是默认策略,不能删除和修改时间段配置。 即设置00-24点的扩缩容策略。 00-24 最小CU 设置扩缩容策略支持的最小CU数。 16 最大CU 当前扩缩容策略支持的最大CU数。
说明 GET 请求服务器返回指定资源。 PUT 请求服务器更新指定资源。 POST 请求服务器新增资源或执行特殊操作。 DELETE 请求服务器删除指定资源,如删除对象等。 HEAD 请求服务器资源头部。 PATCH 请求服务器更新资源的部分内容。 当资源不存在的时候,PATCH可能会去创建一个新的资源。
failure”错误。 将原有跨源连接删除重新创建。再次创建时,必须确保所选“安全组”、“虚拟私有云”、“子网””和“目的地址”与RDS中的设置完全一致。 请选择正确的“服务类型”,本示例中为“RDS”。 图1 创建经典型跨源连接-RDS 检查安全组网络(vpc)配置。 若按照步骤1重
到指定的下一跳地址。 了解更多路由相关信息请参考路由表。 创建增强型跨源时的路由表是数据源子网关联的路由表。 添加路由信息页的路由是弹性资源池子网关联的路由表中的路由。 数据源子网与弹性资源池所在子网为不同的子网,否则会造成网段冲突。 操作步骤 登录DLI管理控制台。 在左侧导航栏中,选择“跨源管理
String 主机对应的IPv4地址。 响应消息 表4 响应参数 参数名称 参数类型 说明 is_success Boolean 执行请求是否成功。“true”表示请求执行成功。 message String 系统提示信息,执行成功时,信息可能为空。 请求示例 修改增强型跨源连接的主机信息。
队列属性设置 操作场景 DLI支持在队列创建完成后设置队列的属性。 当前支持设置: 队列的Spark driver的相关参数:通过设置队列的Spark driver,以提升队列资源的调度效率。 作业结果保存策略:设置是否开启队列的作业查询结果保存至DLI作业桶。 本节操作介绍在管理控制台设置队列属性的操作步骤。
随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等。quantile digest是一个分位数的集合,当需要查询的数据落在某个分位数附近时,就可以用这个分位数做为要查询数据的近似值。它的精度可以调节,但更高精度的结果会带来空间的昂贵开销。
aegg包所在的OBS路径。 分组设置和分组名称根据情况选择。 单击“确定”完成程序包上传。 在报错的Spark作业编辑页面,“依赖python文件”处选择已上传的egg程序包,重新运行Spark作业。 pyspark作业对接MySQL,需要创建跨源链接,打通DLI和RDS之间的网络。
该参数用于配置服务器端是否使用加密来与客户端通信。当设置为true时,服务器将要求所有客户端使用加密连接,这可以提高通信的安全性。 true spark.authenticate 该参数用于配置是否对Spark应用程序的组件进行身份验证。启用身份验证可以防止未授权的访问。这个参数可以设置为true来启用身份验证。
项目编号,用于资源隔离。获取方式请参考获取项目ID。 database_name 是 String 被查询的表所在的数据库名称。 table_name 是 String 被查询的表名称。 user_name 是 String 被查询的用户名称。 请求消息 无请求参数。 响应消息 表2 响应参数 参数名称 是否必选
请指定为集群“公网访问地址”或“公网访问域名”,如果通过内网地址连接,请指定为集群“内网访问地址”或“内网访问域名”。如果通过弹性负载均衡连接,请指定为“弹性负载均衡地址”。 dbadmin:创建集群时设置的默认管理员用户名。 -W:默认管理员用户的密码。 在命令行窗口输入以下命令创建数据库“testdwsdb”。
参考增强型跨源连接,根据RDS MySQL所在的虚拟私有云和子网创建相应的增强型跨源,并绑定所要使用的Flink弹性资源池。 设置RDS MySQL的安全组,添加入向规则使其对Flink的队列网段放通。参考测试地址连通性根RDS的地址测试队列连通性。若能连通,则表示跨源已经绑定成功,否则表示未成功。
须扫描比其所需的更多的文件;如果将其设置得非常高,将线性增加每个数据文件的大小(每50000个条目大约4KB)。 60000 hoodie.index.bloom.fpp 根据条目数允许的错误率。 用于计算应为布隆过滤器分配多少位以及哈希函数的数量。通常将此值设置得很低(默认值:0