华为云用户手册

  • AK/SK认证 AK/SK签名认证方式仅支持消息体大小12MB以内,12MB以上的请求请使用Token认证。 AK/SK认证就是使用AK/SK对请求进行签名,在请求时将签名信息添加到消息头,从而通过身份认证。 AK(Access Key ID):访问密钥ID。与私有访问密钥关联的唯一标识符;访问密钥ID和私有访问密钥一起使用,对请求进行加密签名。 SK(Secret Access Key):与访问密钥ID结合使用的密钥,对请求进行加密签名,可标识发送方,并防止请求被修改。 使用AK/SK认证时,您可以基于签名算法使用AK/SK对请求进行签名,也可以使用专门的签名SDK对请求进行签名。详细的签名方法和SDK使用方法请参见API签名指南。 签名SDK只提供签名功能,与服务提供的SDK不同,使用时请注意。
  • 修订记录 发布日期 修订记录 2024-06-30 第十七次正式发布。 2023-09-04 第十六次正式发布。 权限管理,新增如下操作的细粒度权限策略:查询标签列表、添加/修改/删除标签、查询会话、Kill会话。 2022-08-18 第十五次正式发布。 优化DN实例使用限制章节。 优化产品核心功能章节。 2022-08-09 第十四次正式发布。 优化不支持的特性和使用限制章节。 2022-03-29 第十三次正式发布。 增加DDM原理图。 2022-02-08 第十二次正式发布。 增加不支持的功能特性章节。 2022-01-27 第十一次正式发布。 优化SQL语法使用限制章节。 2022-01-21 第十次正式发布。 优化产品概述章节。 2021-12-30 第九次正式发布。 修改产品概述。 2021-12-13 第八次正式发布。 完善SQL语法使用限制。 2021-11-11 第七次正式发布。 修改DDM实现原理图。 2021-01-15 第六次正式发布。 增加常用概念。 完善MySQ L实例 使用限制。 2020-12-28 第五次正式发布。 刷新DDM实现原理图。 2020-10-20 第四次正式发布。 刷新产品功能、网络访问使用限制等内容。 2020-09-30 第三次正式发布。 刷新产品规格、应用场景等内容。 2020-08-07 第二次正式发布。 刷新权限管理等内容。 2020-04-30 DDM 2.0第一次正式发布。
  • 操作场景 CDM 集群已经创建成功后,您可以查看集群基本信息,并修改集群的配置。 查看集群基本信息: 集群信息:集群版本、创建时间、项目ID、实例ID和集群ID等。 节点配置:集群规格、CPU和内存配置等信息。 网络信息:网络配置。 支持修改集群的以下配置: 消息通知 :CDM的迁移作业(目前仅支持表/文件迁移的作业)失败时,或者EIP异常时,会发送短信或邮件通知用户。该功能产生的消息通知不会计入收费项。 用户隔离:控制其他用户是否能够查看、操作该集群中的迁移作业和连接。 开启该功能时,该集群中的迁移作业、连接会被隔离,华为账号下的其他 IAM 用户无法查看、操作该集群中的迁移作业和连接。 按组批量启动作业会运行组内所有作业。如果开启了用户隔离功能,即使华为账号下的其他IAM用户无法查看到组内作业,按组批量启动作业依然会将组内作业运行,因此在用户隔离场景不建议使用按组批量启动作业功能。 关闭该功能时,该集群中的迁移作业、连接信息可以用户共享,华为账号下的所有拥有相应权限的IAM用户可以查看、操作迁移作业和连接。 注意,用户隔离关闭后需要重启集群VM才能生效。 最大抽取并发数:限制作业运行的总抽取并发数,如果当前所有作业总并发数超出限制,超出部分将排队等待。 注意,最大抽取并发数取值范围为1-1000,建议根据集群规格进行配置,建议值详见最大抽取并发数。过高的并发数可能导致内存溢出,请谨慎修改。 此处的“最大抽取并发数”参数与作业配置管理处的“最大抽取并发数”参数同步,在任意一处修改即可生效。
  • 相关操作 编辑规则分组:在规则分组页面,单击对应规则分组操作栏中的“编辑”,即可修改规则分组的名称、描述和关联的识别规则。 删除规则分组:在规则分组页面,单击对应规则分组操作栏中的“删除”,即可删除识别规则。当需要批量删除时,可以在勾选规则分组后,在列表上方单击“批量删除”。 被引用的规则分组不可删除。如果要删除引用的规则分组,需要先解除规则分组关联的敏感数据发现任务后再删除。解除关联任务请参考发现敏感数据编辑任务,修改“识别规则组”即可。 删除操作无法撤销,请谨慎操作。
  • 解决方法 在AppCube开发环境,进入到开发的应用,在页面设置中引入库“isdpCustomConnectorFilter”,操作方法如下: 登录AppCube开发环境,单击应用,进入到应用开发页面。 如图1所示,单击“页面设置”。 图1 进入页面设置 在“页面设置”页面,如图2所示,单击“资源”。 图2 进入资源页签 如图3所示,单击,获取锁。 图3 获取锁 如图4所示,单击“新建资源”。 图4 新建资源 如图5所示,在弹出的“新建资源”页面,搜索“isdpCustomConnectorFilter”,并单击选中搜索的资源,单击“新增”,新增完成后,在“资源”页签中可以查看到新增的资源“isdpCustomConnectorFilter”,如图6所示。 图5 选中资源 图6 新增的资源 如图7所示,单击,保存后,再单击,释放锁。 图7 保存并释放锁 后续重新打包,安装部署。
  • 修订记录 发布日期 修改说明 2024-07-01 第二十九次正式发布。 修改功能特性章节。 2024-04-15 第二十八次正式发布。 修改功能特性章节。 2024-01-15 第二十八次正式发布。 修改使用约束章节。 2023-11-30 第二十七次正式发布。 修改功能特性章节。 2023-09-30 第二十六次正式发布。 修改功能特性章节。 2023-06-30 第二十五次正式发布。 修改功能特性章节。 2023-03-30 第二十四次正式发布。 修改功能特性章节。 2023-01-31 第二十三次正式发布。 修改个人数据保护机制章节。 2023-01-16 第二十二次正式发布。 修改功能特性章节。 2022-11-09 第二十一次正式发布。 增加安全章节。 2022-09-30 第二十次正式发布。 修改功能特性章节。 2022-03-11 第十九次正式发布。 修改功能特性章节,优化相关描述。 2022-01-26 第十八次正式发布。 增加“图解 数据安全中心 ”章节。 2021-12-28 第十七次正式发布。 修改如下章节: 规格版本差异 2021-09-22 第十六次正式发布。 修改计费说明章节。 2021-09-14 第十五次正式发布。 修改功能特性章节。 修改计费说明章节。 2021-06-18 第十四次正式发布。 修改与其他云服务的关系章节,增加与裸金属服务器的关系。 修改使用约束章节,支持的数据库类别增加裸金属服务器。 2021-05-18 第十三次正式发布。 修改使用约束章节,增加厂商的相关描述。 2021-04-30 第十二次正式发布。 修改功能特性章节,敏感数据识别增加图片类型。 修改使用约束章节,feedback问题修改。 2021-03-11 第十一次正式发布。 修改功能特性章节。 2021-02-27 第十次正式发布。 修改计费说明章节,DSC正式商用。 增加规格版本差异章节。 2021-02-19 第九次正式发布。 修改使用约束章节,增加了RDS数据库的使用限制。 2021-02-03 第八次正式发布。 修改使用约束章节,MySQL数据库支持8.0版本。 2021-01-13 第七次正式发布。 修改功能特性章节,增加了数据脱敏和水印的功能。 2021-01-04 第六次正式发布。 修改1.13-DSC权限管理章节,增加了DSC的系统策略。 2020-12-18 第五次正式发布。 增加使用约束章节。 2020-12-14 第四次正式发布。 增加个人数据保护机制章节。 2020-11-26 第三次正式发布。 优化与其他云服务的关系,增加了与 数据湖 服务的关系。 2020-11-16 第二次正式发布。 优化功能特性章节。 2020-09-30 第一次正式发布。
  • 安装wireguard-tools 执行以下命令安装依赖。 dnf install gcc make 执行以下命令下载wireguard-tools源码包。 wget https://git.zx2c4.com/wireguard-tools/snapshot/wireguard-tools-1.0.20210914.tar.xz 执行以下命令解压上述源码包。 tar -xf wireguard-tools-1.0.20210914.tar.xz 进入wireguard-tools-1.0.20210914/src目录,依次执行以下命令编译安装。 make make install 验证安装是否成功。 可以执行wg -h和wg-quick -h命令验证是否安装成功,如图所示。
  • OOM可能的原因 cgroup内存不足 使用的内存超出了cgroup中memory.limit_in_bytes配置的大小,如下示例演示memory.limit_in_bytes配置为80M,使用memhog模拟分配100M,触发OOM,/var/log/messages部分日志如下,可以从日志中看到memhog所在进程(PID: 2021820)使用了81920kB内存,超出了限制,触发了OOM: warning|kernel[-]|[2919920.414131] memhog invoked oom-killer: gfp_mask=0xcc0(GFP_KERNEL), order=0, oom_score_adj=0 info|kernel[-]|[2919920.414220] memory: usage 81920kB, limit 81920kB, failcnt 30 err|kernel[-]|[2919920.414272] Memory cgroup out of memory: Killed process 2021820 (memhog) total-vm:105048kB, anon-rss:81884kB, file-rss:1544kB, shmem-rss:0kB, UID:0 pgtables:208kB oom_score_adj:0 父cgroup内存不足 在子cgroup中内存仍然足够,但是父cgroup的内存不足,超过了内存限制,如下示例演示父cgroup memory.limit_in_bytes配置为80M,两个子cgroup memory.limit_in_bytes均配置为50M,在两个子cgroup中使用程序循环分配内存,触发OOM,/var/log/messages部分日志如下: warning|kernel[-]|[2925796.529231] main invoked oom-killer: gfp_mask=0xcc0(GFP_KERNEL), order=0, oom_score_adj=0 info|kernel[-]|[2925796.529315] memory: usage 81920kB, limit 81920kB, failcnt 199 err|kernel[-]|[2925796.529366] Memory cgroup out of memory: Killed process 3238866 (main) total-vm:46792kB, anon-rss:44148kB, file-rss:1264kB, shmem-rss:0kB, UID:0 pgtables:124kB oom_score_adj:0 系统全局内存不足 一方面由于OS的空闲内存不足,有程序一直在申请内存,另一方面也无法通过内存回收机制解决内存不足的问题,因此触发了OOM,如下示例演示OS中使用程序循环分配内存,触发OOM,/var/log/messages部分日志如下,可以从日志中看到内存节点Node 0的空闲内存(free)已经低于了内存最低水位线(low),触发了OOM: kernel: [ 1475.869152] main invoked oom: gfp_mask=0x100dca(GFP_HIGHUSER_MOVABLE|__GFP_ZERO), order=0 kernel: [ 1477.959960] Node 0 DMA32 free:22324kB min:44676kB low:55844kB high:67012kB reserved_highatomic:0KB active_anon:174212kB inactive_anon:1539340kB active_file:0kB inactive_file:64kB unevictable:0kB writepending:0kB present:2080636kB managed:1840628kB mlocked:0kB pagetables:7536kB bounce:0kB free_pcp:0kB local_pcp:0kB free_cma:0kB kernel: [ 1477.960064] oom-kill:constraint=CONSTRAINT_NONE,nodemask=(null),cpuset=/,mems_allowed=0,global_oom,task_memcg=/system.slice/sshd.service,task=main,pid=1822,uid=0 kernel: [ 1477.960084] Out of memory: Killed process 1822 (main) total-vm:742748kB, anon-rss:397884kB, file-rss:4kB, shmem-rss:0kB, UID:0 pgtables:1492kB oom_score_adj:1000 内存节点(Node)的内存不足 在NUMA存储模式下,OS会存在多个内存节点,如果程序制定使用特定节点的内存,可能在OS内存充足的情况下触发OOM,如下示例演示在两个内存节点的条件下,使用程序循环在Node 1分配内存,导致Node 1内存不足,但是OS内存足够,/var/log/messages部分日志如下: kernel: [ 465.863160] main invoked oom: gfp_mask=0x100dca(GFP_HIGHUSER_MOVABLE|__GFP_ZERO), order=0 kernel: [ 465.878286] active_anon:218 inactive_anon:202527 isolated_anon:0#012 active_file:5979 inactive_file:5231 isolated_file:0#012 unevictable:0 dirty:0 writeback:0#012 slab_reclaimable:6164 slab_unreclaimable:9671#012 mapped:4663 shmem:2556 pagetables:846 bounce:0#012 free:226231 free_pcp:36 free_cma:0 kernel: [ 465.878292] Node 1 DMA32 free:34068kB min:32016kB low:40020kB high:48024kB reserved_highatomic:0KB active_anon:188kB inactive_anon:778076kB active_file:20kB inactive_file:40kB unevictable:0kB writepending:0kB present:1048444kB managed:866920kB mlocked:0kB pagetables:2752kB bounce:0kB free_pcp:144kB local_pcp:0kB free_cma:0kB kernel: [ 933.264779] oom-kill:constraint=CONSTRAINT_MEMORY_POLICY,nodemask=1,cpuset=/,mems_allowed=0-1,global_oom,task_memcg=/system.slice/sshd.service,task=main,pid=1733,uid=0 kernel: [ 465.878438] Out of memory: Killed process 1734 (main) total-vm:239028kB, anon-rss:236300kB, file-rss:200kB, shmem-rss:0kB, UID:0 pgtables:504kB oom_score_adj:1000 其他可能原因 OS在内存分配的过程中,如果伙伴系统的内存不足,则系统会通过OOM Killer释放内存,并将内存提供至伙伴系统。
  • /etc/osmt/osmt.conf配置文件说明 本节对OSMT工具的配置文件osmt.conf不建议修改的配置项进行说明。 [auto] # if auto_upgrade is True, the osmt-agent will auto upgrade rpms use osmt.conf and reboot between time interval we specified # the value of cycle_time means the osmt-agent will check upgrade every cycle_time seconds, default 86400s(1 day) # When a configuration item has a line break, you need to leave a space or tab at the beginning of the line auto_upgrade = False cycle_time = 3600 minimal_interval = 3600 auto_upgrade_window = "22:00-05:00" auto_upgrade_interval = 1 [Package] # There are three rules of filters, all enabled by default. severity will be effect only when the types contain security, it is the subtype of security. # The following are the three rules: # 1. whitelist has the highest priority, if whitelist is configured then ignore other rules and filter out the whitelist packages from the full list of packages to be upgrade # 2. Filter the update range by types, when the types contain security, further filter the severity of security updates severity, only upgrade the severity level of security. # 3. Filter blacklist to remove packages in blacklist from types filter results, and packages which depend on packages in blacklist will also be removed. # filters must contain at least one types rule, if the types rule is empty, the -a option will not upgrade any packages (by default all 3 filters are enabled). filters = "types, blacklist" whitelist = "" # types include: security, bugfix, enhancement, newpackage, unknown # if types is empty, no package will be upgrade # types = security, bugfix, enhancement, newpackage, unknown types = "security" # severity is the subtype of security, include: low, moderate, important, critical severity = "important, critical" blacklist = "mysql" # 升级后需要重启系统才能生效的rpm包 need_reboot_rpms = kernel,kernel-debug,glibc,glibc-utils,dbus,dbus-python… preinstalled_only = False [backup] store_path = /var/log backup_dir = /etc,/usr,/boot,/var,/run exclude_dir = recover_service = [resource_needed] #the minimum resources required(MB) #min_req_boot_space = 100 #min_req_backup_space = 8192 #min_req_root_space = 1536 #min_req_memory = 512 [cmdline] cmdline_value = crashkernel=512M resume=/dev/mapper/hce-swap rd.lvm.lv=hce/root rd.lvm.lv=hce/swap crash_kexec_post_notifiers panic=3 nmi_watchdog=1 rd.shell=0 [conflict] #conflict_rpm = test1,test2 [strategy] timeout_action = "stop" timeout_action_before = 0 [check] daemon_whitelist=sysstat-collect.service, sysstat-summary.service, systemd-tmpfiles-clean.service # the timeout of query systemd services check_systemd_running_jobs = True query_timeout = 30 check_rpm_packages = True 表1 osmt.conf不建议修改的配置项 配置项 说明 types 按照security、 bugfix、enhancement、newpackage、unknown五个配置项指定RPM包的更新范围,不建议修改。如有特殊需要可以根据系统实际情况进行修改。 severity 升级安全更新,不建议修改。默认升级安全更新。如有特殊需要可以根据系统实际情况进行修改。 [resource_needed] 指升级或更新前进行检查的系统资源限制值,不建议修改。如有特殊需要可以根据系统实际情况进行修改。 父主题: 附录
  • 安装x2hce-ca 确认repo源配置正常。 请检查默认的/etc/yum.repos.d/hce.repo配置文件中参数是否正确,正确的配置如下。 [base] name=HCE $releasever base baseurl=https://repo.huaweicloud.com/hce/$releasever/os/$basearch/ enabled=1 gpgcheck=1 gpgkey=https://repo.huaweicloud.com/hce/$releasever/os/RPM-GPG-KEY-HCE-2 [updates] name=HCE $releasever updates baseurl=https://repo.huaweicloud.com/hce/$releasever/updates/$basearch/ ...... 安装x2hce-ca。 通过yum install -y x2hce-ca-hce.x86_64命令安装工具。安装完成后,生成表1。 表1 用户相关目录列表 目录 说明 /var/log/x2hce-ca 存放工具日志文件的目录。 /var/log/aparser 存放配置收集器日志文件的目录。 /opt/x2hce-ca/output 报告默认输出目录。 /opt/x2hce-ca/scan 待扫描应用软件包的建议存放目录。 /opt/x2hce-ca/update 配置文件更新目录,用于存放更新包和对应的License文件。 /etc/x2hce-ca/config 存放静态配置文件的目录。 /etc/x2hce-ca/database_2.0.0.630 存放数据库文件的目录。 /usr/local/x2hce-ca 程序文件存放路径。 重启操作系统或者执行命令alias x2hce-ca="x2hce_python39 /usr/local/x2hce-ca/x2hce-ca.pyc",使x2hce-ca命令生效。 父主题: x2hce-ca应用兼容性评估
  • 修订记录 发布日期 修订记录 2024-07-01 创建 自定义镜像 ,修改基础镜像的获取方式。 2024-05-30 云审计 服务支持的 DLI 操作列表说明新增Flink Jar作业和Flink模板相关审计事件。 2024-05-23 新增建立DLI与共享VPC中资源的网络连接。 2024-05-22 云审计服务支持的DLI操作列表说明新增Flink Opensource sql相关审计事件。 2024-05-10 弹性资源池概述,新增弹性资源池扩缩容约束限制。 队列弹性扩缩容,新增队列扩缩容约束限制。 2024-04-17 修改导出SQL作业结果,介绍导出作业结果到指定作业桶的方法。 2024-04-03 新增SQL防御,介绍SQL防御规则配置方法。 2024-03-30 新增 DLI委托权限设置,介绍DLI委托权限设置操作指导。 创建Spark作业,补充说明Spark3.3.x及以上版本仅支持选择OBS路径下的程序包。 2024-03-15 新增 标签管理、队列标签管理、弹性资源池标签管理、库表管理标签管理等标签配置相关内容,新增标签策略使用约束限制。 2024-03-08 新增 添加路由,补充关于路由IP的网段说明。 队列属性设置、弹性资源池添加队列补充关于队列的最小CUs小于16CUs时,队列属性相关约束限制说明。 2024-01-30 新增 SQL作业管理,补充说明DLI仅支持从作业桶读取查询结果。 2024-01-17 新增 内置依赖包,新增3.1.1版本依赖包信息。 2024-01-09 修改 数据湖探索 监控指标说明及查看指导,新增弹性资源池相关监控指标。 2023-12-11 修改 全局变量,删除敏感变量相关信息,DLI不再支持新建敏感变量。 2023-12-07 修改 内置依赖包,删除AI镜像安装依赖包信息。 2023-11-14 优化 SQL作业管理、Spark作业管理概述删除导出日志功能的相关描述,SQL作业和Spark作业不再支持导出日志功能。 2023-11-07 优化 跨源认证概述,修改跨源认证的简介,推荐用户使用跨源认证。 增强型跨源连接概述,补充说明跨源场景推荐使用跨源认证存储跨源凭证。 经典型跨源连接(废弃,不推荐使用),补充说明不推荐使用经典型跨源连接。 2023-11-02 优化 创建Spark作业,补充关于资源规格的说明,解释说明driver对队列资源的占用。 2023-08-28 新增 分配队列至项目。 队列属性设置。 弹性资源池添加队列、弹性资源池关联队列补充说明弹性资源池支持仅添加同一企业项目的队列资源。 下线“创建Flink SQL边缘作业”、“边缘鉴权码管理”。 2023-08-14 新增 SQL作业管理,SQL作业详情支持查看“CPU累计使用量”和“输出字节”。 2023-08-02 新增 全局配置,修改全局变量中关于敏感变量的说明。 新增全局变量权限管理。 修改 SQL编辑器,修改SQL作业编辑窗口说明内容。 SQL作业管理,修改作业管理参数表的内容。 使用场景一:创建弹性资源池并运行作业,修改SQL队列类型的相关说明。 弹性资源池添加队列,修改弹性资源池添加队列基础配置关于执行引擎的说明。 2023-07-31 新增 下载基础镜像章节,新增Flink 1.12镜像下载地址。 2023-07-25 修改 队列弹性扩缩容新增约束限制:16CUs队列不支持扩容。 2023-06-30 优化 增强型跨源连接(推荐)。 跨源认证。 2023-06-16 新增 下载基础镜像,新增Spark 3.1.1镜像下载地址。 2023-05-05 新增 开启Flink作业动态扩缩容。 设置作业优先级。 2023-04-17 修改 队列标签管理,修改其中的标签值和键的说明内容。 2023-03-03 新增Spark参数(--conf)配置跨源作业的依赖模块说明表。 2023-03-02 新增库表管理标签管理章节。 2023-02-28 优化弹性资源池队列管理章节。 2023-02-23 修改 下线调试Flink作业相关内容。 操作Flink作业,修改运行时配置中的“异常自动重启”参数描述,Flink SQL作业和Flink OpenSource SQL作业不支持配置从Checkpoint恢复。 2023-01-10 手册结构调整,新增配额管理。 2022-11-04 弹性资源池CU设置,补充CU设置的常见问题。 2022-09-20 创建自定义镜像,修改自定义镜像使用约束,当前仅支持Spark自定义镜像。 2022-08-22 数据库权限管理,补充“显示所有表”、“显示数据库”的权限说明。 Flink作业权限管理,补充查看作业详情的说明。 2022-08-19 云审计服务支持的DLI操作列表说明,修改DLI审计事件名称。 2022-08-12 内置依赖包,删除Python 3.7.5 依赖包相关内容。 2022-07-19 新增弹性资源池关联队列。 新增(推荐)创建Flink OpenSource SQL作业。 使用场景二:配置弹性资源池队列扩缩容策略,补充弹性资源池扩缩容约束限制。 弹性资源池CU设置,补充弹性资源池调整CU的约束限制。
  • 队列管理页面 队列管理主要包括如下功能: 队列权限管理 创建队列 删除队列 修改队列网段 规格变更 弹性扩缩容 弹性扩缩容定时任务 测试地址连通性 创建消息通知主题 队列标签管理 DLI作业执行失败需要通过 SMN 发送通知消息,因此需要获得访问和使用SMN(消息通知服务)的SMN Administrator权限。 队列管理页面显示用户创建所有的队列和服务预置的default队列,您可以查看队列容量、计费方式等信息。队列列表默认按创建时间排列,创建时间最近的队列显示在最前端。 表2 队列管理参数 参数 参数说明 名称 队列的名称。 类型 队列的类型。 SQL队列 通用队列 Spark队列(兼容老版本) 规格 队列大小,单位:CUs。 按需队列:购买按需队列时的队列大小。 包年包月队列:购买包年包月队列时的队列大小。 CUs是队列的计价单位。 1CUs=1Core 4GMem 。不同规格的队列对应的计算能力不一样,规格越高计算能力越好。 实际CUs 当前队列实际大小值。 弹性扩缩容 定时扩缩容的目标CU值,或当前规格CU值的最大值和最小值。 计费模式 SQL作业有两种计费方式。 按需计费 按需计费有三种方式,三种方式是互斥的,可根据需要选择其中一种。 按需/CU时:按照CU时收取计算费用。建议选择CU时套餐包。 按需/SQL计算量:按照用户每个作业的数据扫描量收取计算费用。建议选择扫描量套餐包。 说明: 只有default队列按照数据扫描量收取计算费用,用户自定义队列均按照CU时收取计算费用。 按需/专属资源模式:自创建起按照自然小时收取计算费用。该模式下可创建增强型跨源连接。 包年包月: 包年 包月 用户名 队列所有者。 企业项目 显示所建队列所属的企业项目。如果不属于企业项目,则显示“--”。 企业项目是一种云资源管理方式,企业项目管理服务提供统一的云资源按项目管理,以及项目内的资源管理、成员管理。关于如何设置企业项目请参考《企业管理用户指南》。 说明: 只有开通了企业管理服务的用户才显示该参数。 描述 创建队列时,对队列的描述。如果无描述,则显示“--”。 操作 删除:删除所选队列。如果队列中有正在提交或者正在运行的作业,将不支持删除操作。 说明: 只有按需计费可以删除队列。 权限管理:查看队列对应的用户权限信息以及对其他用户授权。 更多 重启:强制重启队列。 说明: 只有SQL队列有“重启”操作。 分配至项目:修改所选队列所属的企业项目。 说明: 只有开通了企业管理服务的用户才显示该参数。关于如何设置企业项目请参考《企业管理用户指南》。 弹性扩缩容:可以根据需要选择“扩容”或“缩容”,目标值大小必须为16CU的整数倍。 说明: 只有“按需/CU时”和“按需/专属资源模式”计费队列可以进行弹性扩缩容。 规格变更:可以根据需要选择“扩容”或“缩容”,目标值大小必须为16CU的整数倍。 说明: 只有“包年包月”计费队列可以进行规格变更。 弹性扩缩容定时任务:可以根据业务周期或使用情况,在不同的时间或周期内设置不同的队列大小,系统将定时自动进行“扩容”或“缩容”。目标值大小必须为16CU的整数倍。 续费/退订:根据需要选择续费或者退订。 说明: 只有包年包月计费有“续费/退订”操作。 修改网段:使用DLI增强型跨源时,DLI队列网段与数据源网段不能重合,可根据需要进行修改。 建议使用网段: 10.0.0.0~10.255.0.0/8~24 172.16.0.0~172.31.0.0/12~24 192.168.0.0~192.168.0.0/16~24 说明: 只有包年包月队列可以修改网段。 测试地址连通性:测试队列到指定地址是否可达,支持 域名 和ip,可指定端口。 标签:添加、编辑或删除标签。
  • OBS表如何映射为DLI的分区表? 该示例将car_info数据,以day字段为分区字段,parquet为编码格式(目前仅支持parquet格式),转储数据到OBS。更多内容请参考《数据湖探索Flink SQL语法参考》。 1 2 3 4 5 6 7 8 9 10 11 12 13 create sink stream car_infos ( carId string, carOwner string, average_speed double, day string ) partitioned by (day) with ( type = "filesystem", file.path = "obs://obs-sink/car_infos", encode = "parquet", ak = "{{myAk}}", sk = "{{mySk}}" ); 数据最终在OBS中的存储目录结构为:obs://obs-sink/car_infos/day=xx/part-x-x。 数据生成后,可通过如下SQL语句建立OBS分区表,用于后续批处理: 创建OBS分区表。 1 2 3 4 5 6 7 8 create table car_infos ( carId string, carOwner string, average_speed double ) partitioned by (day string) stored as parquet location 'obs://obs-sink/car-infos'; 从关联OBS路径中恢复分区信息。 1 alter table car_infos recover partitions; 父主题: Flink SQL作业相关问题
  • 修订记录 发布日期 修订记录 2024-07-01 修改DLI委托相关常见问题的描述信息。 2024-05-06 新增怎样升级DLI作业的引擎版本。 2024-04-29 移动计费类常见问题至计费说明手册中。 2024-04-07 修改通用队列操作OBS表如何设置AK/SK。 2024-03-30 新增执行SQL作业时产生数据倾斜怎么办?。 2024-01-30 新增怎样查看弹性资源池和作业的资源使用情况?。 2023-05-11 新增在使用Spark2.3.x访问元数据时,DataSource语法创建avro类型的OBS表创建失败。 2023-03-31 新增为什么Spark3.x的作业日志中打印找不到global_temp数据库。 2022-10-28 新增创建跨源成功但测试网络连通性失败怎么办?。 2022-10-10 常见问题手册结构调整。 新增DLI Flink与 MRS Flink有什么区别?。 2022-09-29 新增SQL作业使用咨询。 新增Spark作业使用咨询。
  • 修订记录 发布日期 修订记录 2024-06-27 新增 使用Hive语法创建OBS表补充关于指定多字符的分隔符的说明。 使用Hive语法创建DLI表补充说明Hive DLI表不支持在建表时指定多字符的分隔符。 2024-05-28 新增 Spark SQL常用配置项说明新增配置参数:spark.sql.legacy.correlated.scalar.query.enabled 使用Hive语法创建OBS表新增关于设置多字符分隔符的使用示例。 使用Hive语法创建DLI表新增关于设置多字符分隔符的使用示例。 2024-02-01 新增 Spark开源命令支持说明 2024-01-30 优化 使用DataSource语法创建OBS表,补充CTAS创建分区表约束限制说明。 使用Hive语法创建OBS表,补充CTAS创建分区表约束限制说明。 使用DataSource语法创建DLI表,补充CTAS创建分区表约束限制说明。 使用Hive语法创建DLI表,补充CTAS创建分区表约束限制说明。 2023-11-17 优化 创建函数,删除关键字TEMPORARY。 2023-11-09 优化 使用DataSource语法创建OBS表,补充示例代码。 使用Hive语法创建OBS表,补充示例代码。 使用DataSource语法创建DLI表,补充示例代码。 使用Hive语法创建DLI表,补充示例代码。 2023-09-22 优化 优化DLI 内置函数,补充函数功能介绍、参数说明、返回值说明和示例代码。 2023-08-14 新增 修改列注释 2023-08-01 新增 跨源连接Oracle表,新增该章节。 2023-04-02 使用DataSource语法创建OBS表,修改建表相关参数说明。 2023-02-23 使用DataSource语法创建OBS表,修改PERMISSIVE参数说明。
  • 修订记录 表1 修订记录 发布日期 更新特性 2024-06-28 第三十七次发布。 新增 提交SQL作业(推荐)新增配置参数current_catalog。 2024-05-28 第三十六次发布。 新增 提交SQL作业(推荐)新增配置参数spark.sql.legacy.correlated.scalar.query.enabled。 导出查询结果,请求参数新增quote_char和escape_char。 2024-04-08 第三十五次发布。 新增 提交SQL作业(推荐),新增请求参数engine_type。 查询作业列表,新增graph_editor_enabled、duration等响应参数。 查询作业详情,新增graph_editor_enabled、duration等响应参数。 2024-03-11 第三十四次发布。 创建增强型跨源连接,修改tag中value取值说明。 2024-02-29 第三十三次发布。 生成Flink SQL作业的静态流图新增参数flink_version。 提交SQL作业(推荐),修改dli.sql.sqlasync.enabled默认值为true。 创建增强型跨源连接,新增参数elastic_resource_pools。 2024-01-17 第三十二次发布。 新增以下接口: 数据赋权(用户或项目) 2023-12-12 第三十一次发布。 新增以下接口: 创建路由 删除路由 2023-12-07 第三十次发布。 新增以下接口: 创建跨源认证 获取跨源认证列表 更新跨源认证 删除跨源认证 2023-11-27 第二十九次发布。 下线以下接口: 模板相关API(废弃) 增强型跨源连接相关API(废弃) 跨源认证相关API(废弃) 队列相关API(废弃) 权限相关API(废弃) 资源相关API(废弃) SQL作业相关API(废弃) Spark批处理相关API(废弃) 分组资源相关API(废弃) 委托相关API(废弃) 2023-11-22 第二十八次发布。 队列相关API(推荐),修改 API Explorer 链接。 SQL作业相关API,修改API Explorer链接。 Flink作业相关API,修改API Explorer链接。 Spark作业相关API,修改API Explorer链接。 Flink作业模板相关API,修改API Explorer链接。 增强型跨源连接相关API,修改API Explorer链接。 全局变量相关API,修改API Explorer链接。 弹性资源池相关API,修改API Explorer链接。 SQL模板相关API,修改API Explorer链接。 2023-11-17 第二十七次发布。 查询批处理作业列表,新增字段result_format、result_path。 2023-11-07 第二十六次发布。 查询批处理作业列表,修改job_id为job-id。 2023-09-07 第二十五次发布。 查询所有作业新增字段cpu_cost和output_byte。 创建弹性资源池,charging_mode修改为可选参数。 查询批处理作业列表、查询批处理作业详情新增参数req_body。 2023-09-05 第二十四次发布。 DLI不再支持边缘作业场景的API调用。IEF相关API(废弃)已移动至历史API章节。 2023-03-15 第二十三次发布。 新增查询增强型跨源连接列表和查询增强型跨源连接章节的响应参数elastic_resource_pools。 2023-2-22 第三十二次正式发布。 文档结构调整,新增分组资源相关API(废弃)。 2022-11-26 第三十一次正式发布。 新增: 弹性资源池扩缩容历史记录 跨源认证相关API(废弃) 创建路由(废弃) 删除路由(废弃) SQL模板相关API 2022-11-15 第三十次正式发布。 查看表的用户权限(废弃),修改privileges参数说明。 2022-8-16 第二十九次正式发布。 新建SQL作业,补充参数flink_version。 更新SQL作业,补充参数flink_version。 2022-8-11 第二十八次正式发布。 创建队列定时扩缩容计划(废弃),修改repeat_day参数为必选。 IEF系统事件上报(废弃),修改请求示例。 创建队列请求参数,新增elastic_resource_pool_name。 2021-1-11 第二十七次正式发布。 废弃“查询作业结果”API,修改为“预览作业结果”。 新增创建数据下载作业接口。 新增生成Flink SQL作业的静态流图接口。 2020-12-2 第二十六次正式发布。 下线Spark作业中,会话和语句相关API。 2020-8-4 第二十五次正式发布。 新增委托相关API。 Flink作业相关API增加以下子章节 9.17 创建IEF消息通道 9.18 边缘Flink作业状态上报 9.19 边缘Flink作业Action回调 9.20 IEF系统事件上报 2020-7-20 第二十四次正式发布。 队列相关API(推荐)增加以下子章节 5.9 创建队列定时扩缩容计划 5.10 查看队列定时扩缩容计划 5.11 批量删除队列定时扩缩容计划 5.12 单个删除队列定时扩缩容计划 5.13 修改队列定时扩缩容计划 2020-5-30 第二十三次正式发布。 队列相关API(推荐)增加以下子章节 5.7 创建指定地址连通性测试请求 5.8 查询指定地址连通性测试详情 2020-5-19 第二十二次正式发布。 修改以下章节 2-API概览 2020-5-12 第二十一次正式发布。 增加以下章节及其子章节 13-全局变量相关API 调整目录。 将“流作业相关API”修改为“Flink作业相关API”。 将“流作业模板相关API”修改为“Flink作业模板相关API”。 2020-2-21 第二十次正式发布。 增加以下章节及其子章节 4.5-重启/扩容/缩容队列 4.6-查询队列详情 5.2.8-获取分区信息列表 9-流作业相关API 10-流作业模板相关API 2020-1-22 第十九次正式发布。 增加以下章节 11-权限策略和授权项 2019-8-16 第十八次正式发布。 增加以下章节及其子章节 4.4-增强型跨源连接相关API 2019-5-15 第十七次正式发布。 删除以下章节及其子章节 5.8-提交基因作业相关API 2018-12-13 第十六次正式发布。 增加以下章节及其子章节 5.9-跨源连接相关API 5.8.11-提交cnvkit作业 5.8.12-查询cnvkit作业 2018-8-28 第十五次正式发布。 增加以下章节及其子章节 5.8-提交基因作业相关API 2018-7-26 第十四次正式发布。 增加以下章节及其子章节 5.10.1-对接CloudTable HBase 2018-5-31 第十三次正式发布。 增加以下章节及其子章节 5.7-提交Spark作业相关API 2018-4-25 第十二次正式发布。 增加以下章节 5.2.13-检查SQL语法 5.4.4-预览表内容 2018-4-19 第十一次正式发布。 服务更名 2018-2-6 第十次正式发布。 增加以下章节及其子章节 5.1.2-创建队列 5.1.3-删除队列 6.3-错误码 修改“5-API说明”各章节参数及示例,补充出错说明 2018-01-22 第九次正式发布。 根据模板修改手册大纲 增加以下章节: 1-使用前必读 调整“5-API说明”中所有子章节的section 修改“公共消息头”为“公共参数” 增加以下内容: 5.2.1-提交SQL作业(推荐) 5.2.7-查看作业结果(推荐) 5.2.11-取消作业(推荐) 5.4.1-查看所有表(推荐) 2017-12-28 第八次正式发布。 修改以下内容: 2-接口简介 4.1-服务使用方法 5-API说明章节下的所有子章节 2017-11-30 第七次正式发布。 修改以下内容: 5.2.3-导入数据 5.2.4-导出数据 5.2.6-查询作业详细信息 5.2.9-导出查询结果 5.5.1-队列赋权 5.5.3-数据赋权 5.5.5-查看表的使用者 2017-11-22 第六次正式发布。 修改以下内容: 3.1-获取请求认证章节下的所有子章节 3.2-获取项目编号 6.1-公共请求参数 5.2.3-导入数据 5.2.4-导出数据 5.2.5-查询作业状态 5.2.6-查询作业详细信息 5.2.10-查询所有作业 5.3.2-查看所有数据库 5.4.2-查看所有表(废弃) 5.4.5-创建表 5.5-权限相关API章节下的所有子章节 2017-11-03 第五次正式发布。 修改以下内容: 4-API 2017-10-28 第四次正式发布。 2017-09-30 第三次正式发布。 2017-09-12 第二次正式发布。 修改以下内容: 全文user_id改为user_name 文档中所有queue_id的地方改为queue_name 删除以下内容: 4.2.1-新增队列 4.2.3-删除队列 2017-08-25 第一次正式发布。
  • 示例 Redis表用于与输入流连接。 CREATE TABLE table_a (attr1 string, attr2 string, attr3 string) WITH ( type = "dcs_redis", value_type = "hash", key_column = "attr1", hash_key_column = "attr2", cluster_address = "192.168.1.238:6379", password = "xxxxxxxx" );
  • 语法格式 1 2 3 4 5 6 CREATE TABLE table_id (key_attr_name STRING(, hash_key_attr_name STRING)?, value_attr_name STRING) WITH ( type = "dcs_redis", cluster_address = ""(,password = "")?, value_type= "", key_column= ""(,hash_key_column="")?);
  • 注意事项 不支持Redis集群。 请务必确保您的账户下已在分布式缓存服务(D CS )里创建了Redis类型的缓存实例。 如何创建Redis类型的缓存实例请参考《分布式缓存服务用户指南》。 该场景作业需要运行在DLI的独享队列上,因此要与DCS实例建立增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。 如何设置安全组规则,请参见《虚拟私有云用户指南》中“安全组”章节。
  • 关键字 表1 关键字说明 参数 是否必选 说明 type 是 输出通道类型,dcs_redis表示输出到分布式缓存服务的Redis存储系统中。 cluster_address 是 Redis实例连接地址。 password 否 Redis实例连接密码,当设置为免密访问时,省略该配置项。 value_type 是 指定数据类型。支持的数据类型包括:string, list, hash, set, zset。 key_column 是 指定代表Redis key属性的列名。 hash_key_column 否 当value_type设置为hash时,需要指定本字段作为第二级key属性的列名。 cache_max_num 否 表示最大缓存的查询结果数,默认值为32768。 cache_time 否 表示数据库查询结果在内存中缓存的最大时间。单位为毫秒,默认值为10000,当值为0时表示不缓存。
  • 关键字 表1 关键字说明 参数 是否必选 说明 type 是 输出通道类型,rds表示输出到关系型数据库或者 数据仓库 服务中。 username 是 数据库连接用户名。 password 是 数据库连接密码。 db_url 是 数据库连接地址格式为:postgresql://ip:port/database。 table_name 是 要插入数据的数据库表名。数据库表需事先创建好。 db_columns 否 支持配置输出流属性和数据库表属性的对应关系,需严格按照输出流的属性顺序配置。 示例: 1 2 3 4 5 6 7 8 9 create sink stream a3(student_name string, student_age int) with ( type = "rds", username = "root", password = "xxxxxxxx", db_url = "postgresql://192.168.0.102:8000/test1", db_columns = "name,age", table_name = "t1" ); student_name对应数据库里的name属性,student_age对应数据库里的age属性。 说明: 当不配置db_columns时,若输出流属性个数小于数据库表属性个数,并且数据库多出的属性都是nullable或者有默认值时,这种情况也允许。 primary_key 否 如果想通过主键实时更新表中的数据,需要在创建数据表的时候增加primary_key配置项,如下面例子中的c_timeminute。配置primary_key后,在进行数据写入操作时,如果primary_key存在,则进行更新操作,否则进行插入操作。 示例: 1 2 3 4 5 6 7 8 9 CREATE SINK STREAM test(c_timeminute LONG, c_cnt LONG) WITH ( type = "rds", username = "root", password = "xxxxxxxx", db_url = "postgresql://192.168.0.12:8000/test", table_name = "test", primary_key = "c_timeminute" );
  • 前提条件 请务必确保您的账户下已在数据仓库服务(DWS)里创建了DWS集群。 如何创建DWS集群,请参考《数据仓库服务管理指南》中“创建集群”章节。 请确保已创建DWS数据库表。 该场景作业需要运行在DLI的独享队列上,因此要与DWS集群建立增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。 如何设置安全组规则,请参见《虚拟私有云用户指南》中“安全组”章节。
  • 语法格式 1 2 3 4 5 6 7 8 CREATE SINK STREAM stream_id (attr_name attr_type (',' attr_name attr_type)* ) WITH ( type = "rds", username = "", password = "", db_url = "", table_name = "" );
  • 示例 将流audi_cheaper_than_30w的数据输出到数据库test的audi_cheaper_than_30w表下。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 CREATE SINK STREAM audi_cheaper_than_30w ( car_id STRING, car_owner STRING, car_brand STRING, car_price INT ) WITH ( type = "rds", username = "root", password = "xxxxxx", db_url = "postgresql://192.168.1.1:8000/test", table_name = "audi_cheaper_than_30w" ); insert into audi_cheaper_than_30w select "1","2","3",4;
  • 功能描述 DLI将Flink作业的输出数据输出到数据仓库服务(DWS)中。DWS数据库内核兼容PostgreSQL,PostgreSQL数据库可存储更加复杂类型的数据,支持空间信息服务、多版本并发控制(MVCC)、高并发,适用场景包括位置应用、金融保险、互联网电商等。 数据仓库服务(Data Warehouse Service,简称DWS)是一种基于基础架构和平台的在线数据处理数据库,为用户提供海量数据挖掘和分析服务。DWS的更多信息,请参见《数据仓库服务管理指南》。
  • 参数说明 表1 参数说明 参数 是否必选 默认值 数据类型 说明 connector 是 无 String connector类型,需配置为'redis'。 host 是 无 String redis连接地址。 port 否 6379 Integer redis连接端口。 password 否 无 String redis认证密码。 namespace 否 无 String redis key的namespace delimiter 否 : String redis的key和namespace之间的分隔符。 data-type 否 hash String redis的数据类型,有下列选项: hash list set sorted-set string data-type取值约束详见data-type取值约束说明。 schema-syntax 否 fields String redis的schema语义,包含以下值(其具体使用请参考注意事项和常见问题): fields:适用于所有数据类型 fields-scores:适用于sorted set数据类型 array:适用于list、set、sorted set数据类型 array-scores:适用于sorted set数据类型 map:适用于hash、sorted set数据类型 schema-syntax取值约束详见schema-syntax取值约束说明。 deploy-mode 否 standalone String redis集群的部署模式,支持standalone、master-replica、cluster。默认为standalone。 retry-count 否 5 Integer 连接redis集群的尝试次数。 connection-timeout-millis 否 10000 Integer 尝试连接redis集群时的最大超时时间。 commands-timeout-millis 否 2000 Integer 等待操作完成响应的最大时间。 rebalancing-timeout-millis 否 15000 Integer redis集群失败时的休眠时间。 scan-keys-count 否 1000 Integer 每次扫描时读取的数量。 default-score 否 0 Double 当data-type设置为“sorted-set”时的默认score。 deserialize-error-policy 否 fail-job Enum 数据解析失败时的处理方式。枚举类型,包含以下值: fail-job:作业失败 skip-row:跳过当前数据 null-field:设置当前数据为null skip-null-values 否 true Boolean 是否跳过null。 pwd_auth_name 否 无 String DLI侧创建的Password类型的跨源认证名称。 使用跨源认证则无需在作业中配置账号和密码。
  • 前提条件 创建该作业前,需要建立DLI和Redis的增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。 如何设置安全组规则,请参见《虚拟私有云用户指南》中“安全组”章节。 Flink跨源开发场景中直接配置跨源认证信息存在密码泄露的风险,优先推荐您使用DLI提供的跨源认证。 跨源认证简介及操作方法请参考跨源认证简介。
  • 语法格式 1 2 3 4 5 6 7 8 9 10 create table dwsSource ( attr_name attr_type (',' attr_name attr_type)* (',' watermark for rowtime_column_name as watermark-strategy_expression) ,PRIMARY KEY (attr_name, ...) NOT ENFORCED ) with ( 'connector' = 'redis', 'host' = '' );
  • 示例代码 计算所有商品库存(items)的 0.5 百分位。命令示例如下: select percentile(items,0.5) from warehouse; 返回结果如下: +------------+ | _c0 | +------------+ | 500.6 | +------------+ 与group by配合使用,对所有商品按照仓库(warehourseId)进行分组,并计算同组商品库存(items)的 0.5 百分位。命令示例如下: select warehourseId, percentile(items, 0.5) from warehourse group by warehourseId; 返回结果如下: +------------+------------+ | warehouseId| _c1 | +------------+------------+ | city1 | 499.6 | | city2 | 354.8 | | city3 | 565.7 | +------------+------------+
  • 语法格式 1 SHOW [USER|SYSTEM|ALL] FUNCTIONS ([LIKE] regex | [db_name.] function_name); 其中regex为正则表达式,可以参考如下表1参数样例。 表1 regex参数举例说明 regex表达式 匹配含义 'xpath*' 表示匹配所有xpath开头的函数名。 例如:SHOW FUNCTIONS LIKE 'xpath*' ; 表示可以匹配到:xpath、xpath_int、xpath_string等等xpath开头的函数。 'x[a-z]+' 表示匹配以x开头,后面是a到z范围的一个到多个字符的函数名。如可以匹配到:xpath、xtest等。 'x.*h' 匹配以x开头,h结尾,中间为一个或多个字符的函数名。如可以匹配到:xpath、xtesth等。 其他更多正则表达式的使用,可参考官网说明。
共100000条