检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据库名称支持正则表达式以读取多个数据库的数据,例如flink(.)*表示以flink开头的数据库名。 table-name 是 无 String 访问的表名。 表名支持正则表达式以读取多个表的数据,例如cdc_order(.)*表示以cdc_order开头的表名。 port 否 3306
Hudi表索引设计规范 规则 禁止修改表索引类型。 Hudi表的索引会决定数据存储方式,随意修改索引类型会导致表中已有的存量数据与新增数据之间出现数据重复和数据准确性问题。常见的索引类型如下: 布隆索引:Spark引擎独有索引,采用bloomfiter机制,将布隆索引内容写入到Parquet文件的footer中。
特定匹配:txc 匹配具体的数据库名。 table-name 是 无 String 需要监视的 MySQL 数据库的表名。表名支持正则表达式,以监视满足正则表达式的多个表。 说明: MySQL CDC 连接器在正则匹配表名时,会把用户填写的 database-name, table-name
将Spark作业结果存储在MySQL数据库中,缺少pymysql模块,如何使用python脚本访问MySQL数据库? 缺少pymysql模块,可以查看是否有对应的egg包,如果没有,在“程序包管理”页面上传pyFile。具体步骤参考如下: 将egg包上传到指定的OBS桶路径下。 登录DLI管理控制台,单击“数据管理
判断使用分区表还是非分区表 根据表的使用场景一般将表分为事实表和维度表: 事实表通常整表数据规模较大,以新增数据为主,更新数据占比小,且更新数据大多落在近一段时间范围内(年或月或天),下游读取该表进行ETL计算时通常会使用时间范围进行裁剪(例如最近一天、一月、一年),这种表通常可以通
源访问RDS的表数据。 操作流程 使用DLI提交SQL作业查询RDS MySQL数据操作流程如表1所示。 开始进行如下操作前,请务必参考准备工作完成必要操作。 表1 使用DLI提交SQL作业查询RDS MySQL数据的操作流程 操作步骤 说明 步骤1:创建RDS MySQL实例 样例场景需要创建RDS
修改表 添加列 修改列注释 开启或关闭数据多版本 父主题: 表相关
参数模板:Default-MySQL-8.0 只读实例:暂不购买 单击“立即购买”,确认规格信息。 单击“提交”,完成RDS实例的创建。 登录MySQL,并使用下述命令在flink库下创建orders表。 登录MySQL,单击“SQL窗口”,在SQL查询页面输入以下创建表语句,创建RDS MySQL表。
源认证则无需在作业中配置账号和密码。 'database-name' = 'testrdsdb',--RDS MySQL实例的数据库名 'table-name' = 'mysqlcdc'--RDS MySQL实例的数据库下的表名 ); create table dwsSink(
怎样修改DLI上已经创建好的表的字段名称? DLI本身不支持直接修改表的字段名称,但您可以通过以下步骤来解决这个问题表数据迁移的方式来解决该问题: 创建新表:创建一个新表,并定义新的表字段名称。 迁移数据:使用INSERT INTO ... SELECT语句将旧表的数据迁移到新表中。
列字段名称。col_name必须是已存在的列。 col_type 是 列数据类型。本语法不支持修改列数据类型,这里指定的是创建表时指定的列数据类型。 col_comment 是 修改后的列注释信息。注释内容为长度不超过1024字节的有效字符串。 示例 修改表t1中的c1列的注释信息为“the new comment”。
SQL作业执行完成后,修改表名导致datasize不正确怎么办? 在执行SQL作业后立即修改表名,可能会导致表的数据大小结果不正确。 这是因为DLI在执行SQL作业时,会对表进行元数据更新,如果在作业执行完成前修改了表名,会和作业的元数据更新过程冲突,从而影响对数据大小的判断。 为
字符串表示形式,所以不允许其作为主键字段。如果未指定主键,Elasticsearch将自动生成随机的文档ID。 Elasticsearch结果表同时支持静态索引和动态索引。 如果使用静态索引,则索引选项值应为纯字符串,例如myusers,所有记录都将被写入myusers索引。 如
driver jdbc驱动类名,访问MySQL集群请填写:"com.mysql.jdbc.Driver",访问PostGre集群请填写:"org.postgresql.Driver"。 dbtable 访问MySQL集群填写"数据库名.表名" 注意: 连接的RDS数据库名不能包含中划线-或^特殊字符,否则会创建表失败。
当指定Hudi的索引类型为Global索引类型时,Hudi支持跨分区进行数据更新,但Global索引性能较差一般不建议使用。 建议 事实表采用日期分区表,维度表采用非分区或者大颗粒度的日期分区 是否采用分区表要根据表的总数据量、增量和使用方式来决定。从表的使用属性看事实表和维度表具有的特点:
COLUMNS:添加列。 COMMENT:列描述。 参数说明 表1 参数描述 参数 描述 db_name Database名称,由字母、数字和下划线(_)组成。不能是纯数字,且不能以下划线开头。 table_name 表名称。 col_name 列字段名称。 col_type 列字段类型。
Hudi 结果表 功能描述 Flink SQL作业写Hudi表。 更多具体使用可参考开源社区文档:Hudi。 注意事项 推荐使用SparkSQL统一建表 表名必须满足Hive格式要求 表名必须以字母或下划线开头,不能以数字开头。 表名只能包含字母、数字、下划线。 表名长度不能超过128个字符。
TBLPROPERTIES:设置表属性,开启多版本功能。 UNSET TBLPROPERTIES:取消表属性,关闭多版本功能。 参数说明 表1 参数描述 参数 描述 db_name Database名称,由字母、数字和下划线(_)组成。不能是纯数字,且不能以下划线开头。 table_name 表名称。 注意事项
参数说明 表1 参数说明 参数 是否必选 说明 connector.type 是 数据源类型,‘jdbc’表示使用JDBC connector,必须为jdbc connector.url 是 数据库的URL connector.table 是 读取数据库中的数据所在的表名 connector
本示例当前选择为“否”。 模式或表空间 选择RDS MySQL待迁移的数据库名称。例如当前待迁移的表数据数据库为“testrdsdb”。 表名 待迁移的RDS MySQL数据表名。当前为4中的“tabletest”表。 更多详细参数配置请参考配置关系数据库源端参数。 目的端参数配置,具体参考如下: