检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ClickHouse结果表 功能描述 DLI支持将Flink作业数据输出到ClickHouse数据库中。ClickHouse是面向联机分析处理的列式数据库,支持SQL查询,且查询性能好,特别是基于大宽表的聚合分析查询性能非常优异,比其他分析型数据库速度快一个数量级。详细请参考ClickHouse组件操作。
DLI的数据可存储在哪些地方 DLI支持存储哪些格式的数据? DLI支持如下数据格式: Parquet CSV ORC Json Avro DLI服务的数据可以存储在哪些地方? OBS:SQL作业,Spark作业,Flink作业使用的数据均可以存储在OBS服务中,降低存储成本。
/ DELETE 消息到 Flink SQL 系统中。在很多情况下,利用这个特性非常的有用,例如 将增量数据从数据库同步到其他系统 日志审计 数据库的实时物化视图 关联维度数据库的变更历史,等等。 参数说明 表1 参数 是否必选 默认值 是否必选 描述 format 是 (none)
DLI跨源连接中配置MRS主机信息 在DLI管理控制台上已完成创建跨源连接。具体操作请参考《数据湖探索用户指南》。 对接MRS HBase需要在DLI队列的host文件中添加MRS集群节点的/etc/hosts信息。 详细操作请参考《数据湖探索用户指南》中的“修改主机信息”章节描述。
如何获取项目ID? 项目ID是系统所在区域的ID。用户在调用API接口进行云资源管理(如创建集群)时,需要提供项目ID。 查看项目ID步骤如下: 注册并登录华为云管理控制台。 将鼠标移动到右上角用户名上,在下拉列表中单击“我的凭证”。 在“我的凭证”页面的项目列表中查看项目ID。
怎样查看我的配额 登录管理控制台。 单击管理控制台左上角的,选择区域和项目。 在页面右上角,选择“资源 > 我的配额”。 系统进入“服务配额”页面。 图1 我的配额 您可以在“服务配额”页面,查看各项资源的总配额及使用情况。 如果当前配额不能满足业务要求,请参考后续操作,申请扩大配额。
同: HetuEngine不支持通过IAM用户授权,需使用DLI资源授权。 解决方案 请参考《数据湖探索用户指南》中的数据库权限管理章节授予用户创建表的权限。 父主题: DLI权限管理类
查看弹性资源池的基本信息 资源池创建完成后您可以通过管理控制台查看和管理您的弹性资源池。 本节操作介绍在管理控制台如何查看弹性资源池基本信息,包括弹性资源池的VPC网段、IPv6网段、创建时间等信息。 查看弹性资源池的基本信息 登录DLI管理控制台。 选择“资源管理 > 弹性资源池”。 进入弹性资源
DLI_TABLE 创建的DLI表名称。 注意事项 插入的数据不能为null;插入的数据相同,会覆盖原数据;插入的数据只有value值不同,也会覆盖原数据。 不支持INSERT OVERWRITE语法。 不建议对同一张表并发插入数据,因为有一定概率发生并发冲突,导致插入失败。 时间戳格式只支持yyyy-MM-dd
Flink Jar作业设置backend为OBS,报错不支持OBS文件系统 问题现象 客户执行Flink Jar作业,通过设置checkpoint存储在OBS桶中,作业一直提交失败,并伴有报错提交日志,提示OBS桶名不合法。 原因分析 确认OBS桶名是否正确。 确认所用AKSK是否有权限。
REFRESH TABLE刷新表元数据 功能描述 Spark为了提高性能会缓存Parquet的元数据信息。当更新了Parquet表时,缓存的元数据信息未更新,导致Spark SQL查询不到新插入的数据作业执行报错,报错信息参考如下: DLI.0002: FileNotFoundException:
步骤2:创建RDS MySQL数据库和表 登录RDS管理控制台,在“实例管理”界面,选择已创建的RDS MySQL实例,选择操作列的“更多 > 登录”,进入数据管理服务实例登录界面。 输入实例登录的用户名和密码。单击“登录”,即可进入RDS MySQL数据库并进行管理。 在数据库实例界面,单击
object 是 String 被赋权的数据对象,命名方式为: “databases.数据库名”,则数据库下面的所有数据都将被共享。 “databases.数据库名.tables.表名”, 指定的表的数据将被共享。 “databases.数据库名.tables.表名.columns
插入数据至HBase表 功能描述 INSERT INTO命令将DLI表中的数据插入到已关联的hbase表中。 语法格式 将SELECT查询结果插入到表中: 1 2 3 4 5 6 7 INSERT INTO DLI_TABLE SELECT field1,field2...
错。 类型不一致时不一定报错,例如插入int类型数据,但CSS中Schema保存的是文本类型,int类型会被转换成文本类型。 不建议对同一张表并发插入数据,因为有一定概率发生并发冲突,导致插入失败。 示例 查询表“user”中的数据插入表“test”中。 1 2 3 4 5 6 INSERT
计费。 数据库 数据库即按照数据结构来组织、存储和管理数据的仓库。DLI服务管理权限的基础单元是数据库,赋权以数据库为单位。 在DLI中,表和数据库是定义底层数据的元数据容器。表中的元数据让DLI知道数据所在的位置,并指定了数据的结构,例如列名称、数据类型和表名称。数据库是表的逻辑分组。
使用DLI提交Spark作业 创建Spark作业 设置Spark作业优先级 查询Spark作业日志 管理Spark作业 管理Spark作业模板
在“服务列表”中选择数据湖探索,进入DLI主界面。如果在“队列管理”页面可以查看队列列表,但是单击右上角“购买队列”,无法购买DLI队列(假设当前权限仅包含DLI ReadOnlyAccess),表示“DLI ReadOnlyAccess”已生效。 在“服务列表”中选择除数据湖探索外(假设当前策略仅包含DLI
percentlie_approx percentile_approx函数用于计算近似百分位数,适用于大数据量。先对指定列升序排列,然后取第p位百分数最靠近的值。 命令格式 percentile_approx (colname,DOUBLE p) 参数说明 表1 参数说明 参数 是否必选
ask耗时过长导致整体作业时间变长问题。 参考图10可以看到数据倾斜时,单个任务的shuffle数据远大于其他Task的数据,导致该任务耗时时间变长。 图10 数据倾斜示例图 数据倾斜原因和解决: Shuffle的数据倾斜基本是由于join中的key值数量不均衡导致。 对join连接条件进行group