检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark作业使用咨询 Spark如何将数据写入到DLI表中 通用队列操作OBS表如何设置AK/SK 如何查看DLI Spark作业的实际资源使用情况 将Spark作业结果存储在MySQL数据库中,缺少pymysql模块,如何使用python脚本访问MySQL数据库? 如何在DLI中运行复杂PySpark程序?
pyspark样例代码 开发说明 前提条件 在DLI管理控制台上已完成创建跨源连接并绑定队列。具体操作请参考《数据湖探索用户指南》。 认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 代码实现详解 import相关依赖包
gaussdb:DWS集群默认数据库。 DWS集群连接地址:请参见获取集群连接地址进行获取。如果通过公网地址连接,请指定为集群“公网访问地址”或“公网访问域名”,如果通过内网地址连接,请指定为集群“内网访问地址”或“内网访问域名”。如果通过弹性负载均衡连接,请指定为“弹性负载均衡地址”。
java样例代码 开发说明 前提条件 在DLI管理控制台上已完成创建跨源连接并绑定队列。具体操作请参考《数据湖探索用户指南》。 认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 代码实现 导入依赖 涉及到的mvn依赖库
新建跨源连接,显示已激活,但使用时提示communication link failure错误怎么办? 根因分析 网络连通性问题,建议用户检查安全组选择是否正确,检查安全组网络(vpc)配置。 解决方案 示列:创建RDS跨源,使用时报“communication link failure”错误。
从Kafka中读取数据,并将数据插入到数据库为flink、表名为order的ClickHouse数据库中,其具体步骤如下(clickhouse版本为MRS的21.3.4.25): 参考增强型跨源连接,在DLI上根据ClickHouse和Kafka集群所在的虚拟私有云和子网分别创建跨源连接,并绑定所要使用的Flink作业队列。
大规模消息处理场景中使用。 前提条件 确保已创建Kafka集群。 该场景作业需要运行在DLI的独享队列上,因此要与kafka集群建立增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。 如何设置安全
信息补全,而维表就是代表存储数据维度信息的数据源。常见的用户维表有 MySQL,Redis等。 结果表:Flink作业输出的结果数据表,将每条实时处理完的数据写入的目标存储,如 MySQL,HBase 等数据库。 示例: Flink 实时消费用户订单数据的 Kafka 源表,通过
服务用户指南》。 本节操作介绍如何为数据库和数据表添加标签、修改标签和删除标签。 数据库标签管理 在DLI管理控制台的左侧导航栏中,单击“数据管理> 库表管理”。 在对应数据库的操作列,选择“更多> 标签”。 进入标签管理页面,显示当前数据库的标签信息。 单击“添加/编辑标签”,
SQL作业,访问其他外部数据源时,需要先创建跨源连接,打通作业运行队列到外部数据源之间的网络。 当前Flink作业支持访问的外部数据源详情请参考DLI常用跨源分析开发方式。 创建跨源连接操作请参见配置DLI与数据源网络连通(增强型跨源连接)。 创建完跨源连接后,可以通过“资源管理 > 队列管理
(可选)步骤三:创建增强型跨源连接 本示例演示的操作需要跨源连接RDS外部数据源,所以需要创建跨源连接。如果作业不需要连接外部数据源,则该步骤可以跳过。 登录RDS控制台,创建RDS数据库实例。 具体操作请参见购买RDS for MySQL实例。 登录RDS实例后,单击“新建数据库”,创建名称为“test2”的数据库。
该功能公测阶段,如需使用请提交工单申请开通“使用Spark作业访问DLI元数据”的使用权限。 约束限制 如果使用Spark 3.1访问元数据,则必须新建队列。 不支持的场景: 在SQL作业中创建了数据库(database),编写程序代码指定在该数据库下创建表。 例如在DLI的SQL编辑器
游戏运营数据分析 游戏公司不同部门日常通过游戏数据分析平台,分析每日新增日志获取所需指标,通过数据来辅助决策。例如:运营部门通过平台获取新增玩家、活跃玩家、留存率、流失率、付费率等,了解游戏当前状态及后续响应活动措施;投放部门通过平台获取新增玩家、活跃玩家的渠道来源,来决定下一周期重点投放哪些平台。
在DLI控制台修改数据库所有者 在实际使用过程中,开发人员创建了数据库和表,交给测试人员进行测试,测试人员测试完成后,再交给运维人员进行体验,在这种情况下,可以通过修改数据库的所有者,将数据转移给其他所有者。 修改数据库所有者 修改数据库所有者的入口有两个,分别在“数据管理”和“SQL编辑器”页面。
单击表操作列的“权限管理”,即可查看当前库/表授权信息或者新增授权。 更多信息请参考在DLI控制台管理数据库资源。 IAM鉴权: 参考权限管理概述章节中的“IAM鉴权使用场景”。 Lakeformation元数据权限管理 参考DLI对接LakeFormation。 父主题: DLI中使用Delta开发作业
ClickHouse是面向联机分析处理的列式数据库,支持SQL查询,且查询性能好,特别是基于大宽表的聚合分析查询性能非常优异,比其他分析型数据库速度快一个数量级。详细请参考ClickHouse组件操作。 前提条件 该场景需要与ClickHouse建立增强型跨源连接,并根据实际情况设置ClickHouse集群所在安全组规则中的端口。
SHOW语法使用概要 SHOW语法主要用来查看数据库对象的相关信息,其中LIKE子句用来对数据库对象过滤,匹配规则如下,具体示例可参看SHOW TABLES: 规则1:_可以用来匹配单个任意字符。 规则2:%可以用来匹配0个或者任意个任意字符。 规则3:* 可以用来匹配0个或者任意个任意字符。
参数配置完成后,单击“确定”完成增强型跨源配置。单击创建的跨源连接名称,查看跨源连接的连接状态,等待连接状态为:“已激活”后可以进行后续步骤。 如果是连接MRS HBase,则还需要添加MRS的主机节点信息,具体步骤如下: 在“跨源管理 > 增强型跨源”中,在已创建的增强型跨源连接的“操作”列,单击“更多 > 修改主机信息”。
击创建demo数据库,请参见图1。 图1 创建数据库 “default”为内置数据库,不能创建名为“default”的数据库。 选择demo数据库,在编辑框中输入以下SQL语句: create table user( user_id int, age int, gender
gaussdb:DWS集群默认数据库。 DWS集群连接地址:请参见获取集群连接地址进行获取。如果通过公网地址连接,请指定为集群“公网访问地址”或“公网访问域名”,如果通过内网地址连接,请指定为集群“内网访问地址”或“内网访问域名”。如果通过弹性负载均衡连接,请指定为“弹性负载均衡地址”。