数据治理中心 DATAARTS STUDIO-约束与限制:使用限制

时间:2024-09-13 09:49:13

使用限制

使用 DataArts Studio 前,您需要认真阅读并了解以下使用限制。
表2 DataArts Studio使用限制一览表

组件

约束限制

公共

  1. DataArts Studio必须基于华为云底座部署。资源隔离场景下,支持以全栈专属云模式部署,另外也支持以 华为云Stack 和H CS Online混合云模式部署。

    关于全栈专属云、华为云Stack和HCS Online的适用场景和差异等更多信息,欢迎通过咨询了解。

  2. DataArts Studio基于 数据湖 底座提供数据一站式集成、开发、治理等能力,本身不具备存储和计算的能力,需要配合数据湖底座使用。
  3. 每个企业项目下最多绑定一个DataArts Studio实例。当企业项目下已绑定实例时,再次购买实例会失败。
  4. DataArts Studio各组件对不同数据源的支持程度不一,您需要按照您的业务需求来选择数据湖底座。DataArts Studio平台当前支持的数据湖产品请参见DataArts Studio支持的数据源

管理中心

  1. 由于管理中心的限制, 数据治理 各组件(如数据架构、数据质量、数据目录等)暂不支持包含中文和“.”字符的库表名。
  2. DataArts Studio实例赠送的 CDM 集群,由于本身规格有限,推荐仅作为DataArts Studio管理中心数据连接的Agent代理使用。
  3. 建议为管理中心数据连接的Agent和CDM迁移作业规划相互独立的CDM集群,避免双方使用同一集群,导致业务高峰期时资源抢占引起业务不可用。
  4. CDM集群作为管理中心数据连接Agent时,单集群无法连接多个 MRS 安全集群。建议您按照业务情况规划多个Agent与MRS安全集群一一映射。
  5. CDM集群作为管理中心数据连接Agent时,单集群的并发活动线程最大为200。即当多个数据连接共用同一Agent时,通过这些数据连接提交SQL脚本、Shell脚本、Python脚本等任务的同时运行上限为200,超出的任务将排队等待。建议您按照业务量情况规划多个Agent分担压力。

  6. 单工作空间允许创建的数据连接个数最多200个。
  7. 管理中心相关开放API并发限制为100qps。

数据集成

  1. CDM作业支持自动备份和恢复,将备份数据存储到OBS中,该功能需要您手动开启。详情请参见CDM作业自动备份/恢复章节。
  2. CDM作业本身无配额限制,但建议作业数不超过CDM集群的vCPU核数*2,否则作业运行性能可能会受到一定影响。
  3. 数据集成CDM集群为单集群部署,集群故障可能会导致业务、数据损失。建议您使用数据开发作业CDM Job节点调用CDM作业,并选择两个CDM集群以提升可靠性。详情请参见CDM Job节点章节。
  4. 当所连接的数据源发生变化(如MRS集群扩容等情况)时,您需要重新编辑并保存该连接。
  5. 在驱动更新场景下,上传驱动后必须在CDM集群列表中重启集群才能更新生效。
  6. 单作业的抽取并发数取值范围为1-300,集群的总抽取并发数取值范围为1-1000。其中集群最大抽取并发数的设置与CDM集群规格有关,并发数上限建议配置为vCPU核数*2,作业的抽取并发数建议不超过集群的总抽取并发数,过高的并发数可能导致内存溢出,请谨慎修改。

关于数据集成中的更多约束限制,请参考CDM约束与限制

数据开发

  1. 数据开发脚本、作业等资产支持备份管理,将备份数据存储到OBS中,该功能需要您手动开启。详情请参见备份管理章节。
  2. 脚本、作业或节点的历史运行记录依赖于OBS桶,如果未配置测试运行历史OBS桶,则无法查看历史运行的详细信息。
  3. 上传资源时,如果资源位置为HDFS,则只支持MRS Spark,MRS Flink Job,MRS MapReduce节点使用该资源。
  4. 单工作空间允许创建的脚本个数最多1万个,脚本目录最多5000个,目录层级最多为10层。
  5. 单工作空间允许创建的作业个数最多1万个,作业目录最多5000个,目录层级最多为10层。
  6. RDS SQL、DWS SQL、HIVE SQL、SPARK SQL、 DLI SQL脚本执行结果页面展示最多1千条,且数据量少于3MB。超过1千条数据可以使用转储功能,转储最多支持1万条。
  7. 实例监控、补数据监控只能展示最近6个月的数据。
  8. 通知记录只能展示最近30天的数据。
  9. 下载中心的下载记录会每7天做老化处理,老化时下载中心记录和已转储的OBS数据会同时被删除。

数据架构

  1. 数据架构当前支持关系建模、维度建模(仅支持星形模型)和数据集市这三种建模方式。
  2. 数据架构支持最大导入文件大小为4Mb;支持最大导入指标个数为3000个;支持一次最大导出500张表。
  3. 单工作空间中创建各类对象的配额如下:
    • 主题5000个。
    • 数据标准目录500条,个数20000个。
    • 业务指标100000个。
    • 原子指标、衍生指标、复合指标各5000条。
  4. 配置中心中各类对象的自定义项配额如下:
    • 主题自定义项10条。
    • 表自定义项30条。
    • 属性自定义项10条。
    • 业务指标自定义项50条。

数据质量

  1. 数据质量作业执行时长依赖数据引擎,如果底层数据引擎资源不足,可能会导致运行速度变慢。
  2. 单个数据质量作业最多可以配置50条规则,如有需要可拆分为多个质量作业。
  3. 单个数据连接上的质量作业关联SQL的并发数默认为1000,如果超出则等待排队执行。可配置范围10-1000。
  4. 单Region内的质量作业关联SQL的并发数为10000,如果超出则等待排队执行。
  5. 业务指标监控模块总览中的实例运行状态和实例告警状态支持按照7天展示,告警趋势、业务看板、指标看板支持按照7天、15天和30天展示。
  6. 数据质量监控模块总览中的变化趋势支持按照30天展示,质量告警分类趋势和规则数量趋势支持按照7天展示。
  7. 质量报告采用T+1日定时批量生成,质量报告数据保留90天。
  8. 导出质量报告至OBS,会将质量报告导出到工作空间中配置的作业日志OBS路径中,导出记录保留3个月。

数据目录

  1. 单工作空间中元数据采集任务最多创建100个。
  2. 元数据采集任务通过执行引擎相关的DDL SQL获取,不建议单个任务采集超过1000张表。如有需要可拆分为多个采集任务,另外调度时间和频次也需要根据业务需要进行合理设置,避免对引擎造成较大的访问和连接压力,设置建议如下:
    • 若业务对元数据时效性要求为1天,则设置调度周期=max(1天,单次采集周期时间),其他情况同理。
    • 若业务压力集中在白天,则设置调度时间在夜间,其他情况同理,选择数据源压力最小的时间段。
  3. 数据血缘的产生依赖于数据开发中调度运行的作业,测试运行的作业不会产生血缘。
  4. 元数据采集模块总览中的数据连接历史统计支持按照7天、15天和30天展示。

数据服务

  1. 数据服务共享版仅供开发测试使用,专享版性能优于共享版,推荐使用数据服务专享版。
  2. DataArts Studio实例下最多支持创建5个数据服务专享版集群,且集群需要与某个工作空间绑定,不能多空间共用同一集群。
  3. 数据服务专享版集群创建后暂不支持修改规格或升级版本。
  4. DataArts Studio实例下支持创建的专享版API最大数量由数据服务专享版API总分配配额(默认为5000)和当前实例下集群的API规格总和共同决定,取较小的作为限制。例如,某DataArts Studio实例下的数据服务专享版API总分配配额为5000,已分别创建了API规格为500和2000的两个集群,则当前实例下支持创建的专享版API最大数量为2500。
  5. 单工作空间下支持创建的专享版API最大数量由数据服务专享版API已分配配额(通过编辑工作空间信息分配)和当前空间下集群的API规格总和共同决定,取较小的作为限制。例如,某工作空间下的数据服务专享版API已分配配额为800,当前工作空间下已创建了API规格为500的两个集群,则当前工作空间下支持创建的专享版API最大数量为800。
  6. 单工作空间下支持创建的应用数量为1000。
  7. 单工作空间下支持创建的流控策略数量为500。
  8. 数据服务支持跟踪并保存事件。对于每个事件,数据服务会报告事件发生日期、说明、时间源(某个集群)等信息,事件保存时长为30天。
  9. 数据服务专享版日志信息仅查询集群最近100条访问记录,均分至集群全部所属节点中获取。
  10. 总览中的调用趋势、发布趋势、调用比率top5、调用时间top5和调用次数top5支持按照近12小时、近1天、近7天和近30天展示,总调用数为前7天数据总和(不含当天)。

数据安全

  1. 数据安全中配置的安全管理员,当且仅当在数据安全组件生效,对于周边组件和其他服务,此身份无效。
  2. 数据安全中功能级别的约束限制,请参考用户指南中对应功能的“约束与限制”章节。
support.huaweicloud.com/productdesc-dataartsstudio/dataartsstudio_07_006.html