数据治理中心 DATAARTS STUDIO-约束与限制:使用限制

时间：2024-12-24 16:32:00

使用限制

使用 DataArts Studio 前，您需要认真阅读并了解以下使用限制。

表2 DataArts Studio使用限制一览表
组件	约束限制
公共	DataArts Studio必须基于华为云底座部署。资源隔离场景下，支持以全栈专属云模式部署，另外也支持以华为云Stack 和H CS Online混合云模式部署。关于全栈专属云、华为云Stack和HCS Online的适用场景和差异等更多信息，欢迎通过咨询了解。 DataArts Studio基于数据湖底座提供数据一站式集成、开发、治理等能力，本身不具备存储和计算的能力，需要配合数据湖底座使用。每个企业项目下最多绑定一个DataArts Studio实例。当企业项目下已绑定实例时，再次购买实例会失败。 DataArts Studio各组件对不同数据源的支持程度不一，您需要按照您的业务需求来选择数据湖底座。DataArts Studio平台当前支持的数据湖产品请参见DataArts Studio支持的数据源。
管理中心	由于管理中心的限制，数据治理各组件（如数据架构、数据质量、数据目录等）暂不支持包含中文和“.”字符的库表名。 DataArts Studio实例赠送的 CDM 集群，由于本身规格有限，推荐仅作为DataArts Studio管理中心数据连接的Agent代理使用。建议为管理中心数据连接的Agent和CDM迁移作业规划相互独立的CDM集群，避免双方使用同一集群，导致业务高峰期时资源抢占引起业务不可用。 CDM集群作为管理中心数据连接Agent时，单集群无法连接多个 MRS 安全集群。建议您按照业务情况规划多个Agent与MRS安全集群一一映射。 CDM集群作为管理中心数据连接Agent时，单集群的并发活动线程最大为200。即当多个数据连接共用同一Agent时，通过这些数据连接提交SQL脚本、Shell脚本、Python脚本等任务的同时运行上限为200，超出的任务将排队等待。建议您按照业务量情况规划多个Agent分担压力。单工作空间允许创建的数据连接个数最多200个。管理中心相关开放API并发限制为100qps。
数据集成	CDM作业支持自动备份和恢复，将备份数据存储到OBS中，该功能需要您手动开启。详情请参见CDM作业自动备份/恢复章节。 CDM作业本身无配额限制，但建议作业数不超过CDM集群的vCPU核数2，否则作业运行性能可能会受到一定影响。数据集成CDM集群为单集群部署，集群故障可能会导致业务、数据损失。建议您使用数据开发作业CDM Job节点调用CDM作业，并选择两个CDM集群以提升可靠性。详情请参见CDM Job节点章节。当所连接的数据源发生变化（如MRS集群扩容等情况）时，您需要重新编辑并保存该连接。在驱动更新场景下，上传驱动后必须在CDM集群列表中重启集群才能更新生效。单作业的抽取并发数取值范围为1-300，集群的总抽取并发数取值范围为1-1000。其中集群最大抽取并发数的设置与CDM集群规格有关，并发数上限建议配置为vCPU核数2，作业的抽取并发数建议不超过集群的总抽取并发数，过高的并发数可能导致内存溢出，请谨慎修改。关于数据集成中的更多约束限制，请参考CDM约束与限制。
数据开发	数据开发脚本、作业等资产支持备份管理，将备份数据存储到OBS中，该功能需要您手动开启。详情请参见备份管理章节。脚本、作业或节点的历史运行记录依赖于OBS桶，如果未配置测试运行历史OBS桶，则无法查看历史运行的详细信息。上传资源时，如果资源位置为HDFS，则只支持MRS Spark，MRS Flink Job，MRS MapReduce节点使用该资源。单工作空间允许创建的脚本个数最多1万个，脚本目录最多5000个，目录层级最多为10层。单工作空间允许创建的作业个数最多1万个，作业目录最多5000个，目录层级最多为10层。 RDS SQL、DWS SQL、HIVE SQL、SPARK SQL、 DLI SQL脚本执行结果页面展示最多1千条，且数据量少于3MB。超过1千条数据可以使用转储功能，转储最多支持1万条。实例监控、补数据监控只能展示最近6个月的数据。通知记录只能展示最近30天的数据。下载中心的下载记录会每7天做老化处理，老化时下载中心记录和已转储的OBS数据会同时被删除。
数据架构	数据架构当前支持关系建模、维度建模（仅支持星形模型）和数据集市这三种建模方式。数据架构支持最大导入文件大小为4Mb；支持最大导入指标个数为3000个；支持一次最大导出500张表。单工作空间中创建各类对象的配额如下：主题5000个。数据标准目录500条，个数20000个。业务指标100000个。原子指标、衍生指标、复合指标各5000条。配置中心中各类对象的自定义项配额如下：主题自定义项10条。表自定义项30条。属性自定义项10条。业务指标自定义项50条。
数据质量	数据质量作业执行时长依赖数据引擎，如果底层数据引擎资源不足，可能会导致运行速度变慢。单个数据质量作业最多可以配置50条规则，如有需要可拆分为多个质量作业。单个数据连接上的质量作业关联SQL的并发数默认为1000，如果超出则等待排队执行。可配置范围10-1000。单Region内的质量作业关联SQL的并发数为10000，如果超出则等待排队执行。业务指标监控模块总览中的实例运行状态和实例告警状态支持按照7天展示，告警趋势、业务看板、指标看板支持按照7天、15天和30天展示。数据质量监控模块总览中的变化趋势支持按照30天展示，质量告警分类趋势和规则数量趋势支持按照7天展示。质量报告采用T+1日定时批量生成，质量报告数据保留90天。导出质量报告至OBS，会将质量报告导出到工作空间中配置的作业日志OBS路径中，导出记录保留3个月。
数据目录	单工作空间中元数据采集任务最多创建100个。元数据采集任务通过执行引擎相关的DDL SQL获取，不建议单个任务采集超过1000张表。如有需要可拆分为多个采集任务，另外调度时间和频次也需要根据业务需要进行合理设置，避免对引擎造成较大的访问和连接压力，设置建议如下：若业务对元数据时效性要求为1天，则设置调度周期=max(1天，单次采集周期时间)，其他情况同理。若业务压力集中在白天，则设置调度时间在夜间，其他情况同理，选择数据源压力最小的时间段。数据血缘的产生依赖于数据开发中调度运行的作业，测试运行的作业不会产生血缘。元数据采集模块总览中的数据连接历史统计支持按照7天、15天和30天展示。
数据服务	数据服务共享版仅供开发测试使用，专享版性能优于共享版，推荐使用数据服务专享版。 DataArts Studio实例下最多支持创建5个数据服务专享版集群，且集群需要与某个工作空间绑定，不能多空间共用同一集群。数据服务专享版集群创建后暂不支持修改规格或升级版本。 DataArts Studio实例下支持创建的专享版API最大数量由数据服务专享版API总分配配额（默认为5000）和当前实例下集群的API规格总和共同决定，取较小的作为限制。例如，某DataArts Studio实例下的数据服务专享版API总分配配额为5000，已分别创建了API规格为500和2000的两个集群，则当前实例下支持创建的专享版API最大数量为2500。单工作空间下支持创建的专享版API最大数量由数据服务专享版API已分配配额（通过编辑工作空间信息分配）和当前空间下集群的API规格总和共同决定，取较小的作为限制。例如，某工作空间下的数据服务专享版API已分配配额为800，当前工作空间下已创建了API规格为500的两个集群，则当前工作空间下支持创建的专享版API最大数量为800。单工作空间下支持创建的应用数量为1000。单工作空间下支持创建的流控策略数量为500。数据服务支持跟踪并保存事件。对于每个事件，数据服务会报告事件发生日期、说明、时间源（某个集群）等信息，事件保存时长为30天。数据服务专享版日志信息仅查询集群最近100条访问记录，均分至集群全部所属节点中获取。总览中的调用趋势、发布趋势、调用比率top5、调用时间top5和调用次数top5支持按照近12小时、近1天、近7天和近30天展示，总调用数为前7天数据总和（不含当天）。
数据安全	数据安全中配置的安全管理员，当且仅当在数据安全组件生效，对于周边组件和其他服务，此身份无效。数据安全中功能级别的约束限制，请参考用户指南中对应功能的“约束与限制”章节。