检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Maxwell Format 功能描述 Maxwell是一个CDC(Changelog Data Capture)工具,可以将MySql中的更改实时流式写入到Kafka等流式connector。Maxwell为changelog提供了统一的格式,而且支持使用JSON对消息进行序列化。
传输效率。 动态Executor shuffle数据优化 提升资源扩缩容的稳定性,当shuffle文件不需要时清理Executor。 支持配置小文件合并 使用SQL过程中,生成的小文件过多时,会导致作业执行时间过长,且查询对应表时耗时增大,建议对小文件进行合并。 参考如何合并小文件完成合并小文件。
已创建DLI的SQL队列。创建队列详细介绍请参考创建队列。 注意:创建队列时,队列类型必须要选择为:SQL队列。 前期准备 创建DLI数据库 登录DLI管理控制台,选择“SQL编辑器”,在SQL编辑器中“执行引擎”选择“spark”,“队列”选择已创建的SQL队列。 在SQL编辑器中
表达式的返回类型必须是 TIMESTAMP(3),表示了从 Epoch 以来的经过的时间。 返回的 watermark 只有当其不为空且其值大于之前发出的本地 watermark 时才会被发出(以保证 watermark 递增)。每条记录的 watermark 生成表达式计算都会由框架完成。 框架会定期发出所生成的最大的
您可以在建表语句OPTIONS中设置“multiLevelDirEnable”为true以查询子目录下的内容,此参数默认值为false(注意,此配置项为表属性,请谨慎配置。Hive表不支持此配置项)。 关于分区表的使用说明: 创建分区表时,PARTITIONED BY中指定分区列必须是表中的列,且必须在Col
表达式的返回类型必须是 TIMESTAMP(3),表示了从 Epoch 以来的经过的时间。 返回的 watermark 只有当其不为空且其值大于之前发出的本地 watermark 时才会被发出(以保证 watermark 递增)。每条记录的 watermark 生成表达式计算都会由框架完成。 框架会定期发出所生成的最大的
进入标签管理页面,显示当前队列的标签信息。 单击“添加/编辑标签”,弹出“添加/编辑标签”对话框,配置参数。配置完成一个标签,单击“添加”将标签添加到输入框中。 图1 添加/编辑标签 表1 标签配置参数 参数 参数说明 标签键 您可以选择: 在输入框的下拉列表中选择预定义标签键。 如果添
查看队列的基本信息 本节操作介绍在管理控制台如何查看队列的基本信息,包括队列的引擎类型和引擎版本。 查看队列的基本信息 登录DLI管理控制台。 选择“资源管理 > 队列管理”。 进入队列列表页面,选择您需要查看的队列。 在列表页面的右上方单击可以自定义显示列,并设置表格内容显示规则、操作列显示规则。
进入标签管理页面,显示当前队列的标签信息。 单击“添加/编辑标签”,弹出“添加/编辑标签”对话框,配置参数。配置完成一个标签,单击“添加”将标签添加到输入框中。 图1 添加/编辑标签 表1 标签配置参数 参数 参数说明 标签键 您可以选择: 在输入框的下拉列表中选择预定义标签键。 如果添
系统提示信息,执行成功时,信息可能为空。 connection_id 否 String 增强型跨源连接ID,用于标识跨源连接的UUID。 privileges 否 Array of Object 跨源连接各个授权项目的信息。具体参数请参考表3。 表3 privileges参数 参数名称 是否必选
表示窗口时间间隔为10天,请根据实际情况修改该时间值。 period_interval 表示在窗口范围内周期性触发的频率,即在窗口结束前,从窗口开启开始,每隔period_interval时长更新一次输出结果。若没有设置,则默认没有使用周期触发策略。 lateness_interval
表示窗口时间间隔为10天,请根据实际情况修改该时间值。 period_interval 表示在窗口范围内周期性触发的频率,即在窗口结束前,从窗口开启开始,每隔period_interval时长更新一次输出结果。如果没有设置,则默认没有使用周期触发策略。 lateness_interval
202404250955 连接容器镜像服务。 登录SWR管理控制台。 选择左侧导航栏的“总览”,单击页面右上角的“登录指令”,在弹出的页面中单击复制登录指令。 在安装容器引擎的虚拟机中执行上一步复制的登录指令。 创建容器镜像组织。如果已创建组织则本步骤可以忽略。 登录SWR管理控制台。
non-strict模式,对主键表采用insert处理。 upsert模式,对于主键表的重复值进行更新操作。 在提交Spark SQL作业时,用户可以在设置中配置以下参数,切换bulk insert作为Insert语句的写入方式。 hoodie.sql.bulk.insert.enable = true
Spark2.4.x:配置名为spark.launcher.childConectionTimeout Spark3.3.x:配置名修改为spark.launcher.childConnectionTimeout 升级引擎版本后是否对作业有影响: 有影响,配置参数名称变化。 Spark3
进入标签管理页面,显示当前数据库的标签信息。 单击“添加/编辑标签”,弹出“添加/编辑标签”对话框,配置参数。 输入框输入内容后单击'添加',将标签添加到输入框中。 图1 数据库添加/编辑标签 表1 标签配置参数 参数 参数说明 标签键 您可以选择: 在输入框的下拉列表中选择预定义标签键。 如
所有的正则表达式函数都使用Java样式的语法。但以下情况除外: 使用多行模式(通过(?m)标志启用)时,只有\ n被识别为行终止符。 此外,不支持(?d)标志,因此不能使用。 大小写区分模式(通过(?i)标志启用)时,总是以unicode的模式去实现。同时,不支持上下文敏感匹配和局部敏感匹配。此外,不支持(?u)标志。
是否允许忽略注释行(默认不允许),注释行以 '#' 作为起始字符。 如果允许注释行,请确保 csv.ignore-parse-errors 也开启了从而允许空行。 csv.ignore-parse-errors 否 false Boolean 当解析异常时,是跳过当前字段或行,还是抛出错误失败(默认为
table与path参数必须存在一个,否则无法判断需要执行clustering的表。 使用由DLI提供的元数据服务时,本命令仅支持配置table参数,不支持配置path参数。 如果需要对指定分区进行clustering,参考格式:predicate => "dt = '2023-08-28'"
属性分隔符,默认为“,”英文逗号。 connector.partition-key 否 数据输出分组主键,多个主键用逗号分隔。当该参数没有配置的时候则随机派发。 注意事项 无 示例 将流disSink的数据输出到DIS中。 1 2 3 4 5 6 7 8 9 10