数据管理-华为云

高性能弹性文件服务 SFS TURBO-存储联动:FAQ

FAQ 什么情况下会发生数据淘汰? 从OBS导入到SFS Turbo的文件，当文件在设定数据淘汰时间内没有被访问时，会自动对该文件进行淘汰。在SFS Turbo上创建的文件，只有已经导出到OBS并且满足数据淘汰时间，才会进行淘汰，如果还没有导出到OBS，则不会淘汰。数据淘汰之后，怎么重新将数据导入到SFS Turbo文件系统？对文件进行读写操作时会重新从OBS桶加载文件数据到SFS Turbo文件系统；使用数据导入功能重新将数据从OBS桶加载到SFS Turbo文件系统。什么场景下会发生数据导入失败？当只导入了文件元数据，或者SFS Turbo中发生了数据淘汰，SFS Turbo中只剩下文件元数据，但OBS桶中的对象又被删除时，进行数据导入或访问文件内容时会发生失败。导入/导出任务是同步的，还是异步的？是异步的，任务提交后马上返回，您可以通过任务id查询异步任务完成状态。删除SFS Turbo联动目录内的文件，OBS桶里对应的对象会删除吗？不会。

高性能弹性文件服务 SFS TURBO 数据管理

高性能弹性文件服务 SFS TURBO-存储联动:数据淘汰功能

数据淘汰功能 SFS Turbo文件系统绑定OBS桶之后，可以使用数据淘汰功能。淘汰时会释放数据内容，仅保留元数据，释放后不占用SFS Turbo文件系统上的存储空间。再次访问该文件时，将重新从OBS中加载文件数据内容。按时间淘汰 SFS Turbo文件系统绑定OBS桶之后，支持数据按时间淘汰功能。设定时间内没有被访问过的文件会被淘汰。按时间淘汰功能支持设置（冷）数据淘汰时间，设置步骤请参考以下操作。登录高性能弹性文件服务管理控制台。在文件系统列表中，单击创建的SFS Turbo文件系统名称，进入文件系统详情页面。在“基本信息”页签，设置（冷）数据淘汰时间。图5 设置冷数据淘汰时间按容量淘汰 SFS Turbo文件系统绑定OBS桶后，支持数据按容量淘汰功能。容量达到95%及以上按照30分钟淘汰时间进行淘汰，淘汰至容量低于85%。淘汰规则：按时间淘汰和按容量淘汰哪个先达到就先按哪个淘汰。数据淘汰默认开启，淘汰时间默认为60小时。设置（冷）数据淘汰时间的API请参考更新文件系统。如果SFS Turbo文件系统存储空间写满，会影响业务运行，建议在云监控服务 CES上配置SFS Turbo已用容量的监控告警。当触发容量阈值告警时请手动缩短数据淘汰时间，例如从60小时配置成40小时，加速（冷）数据淘汰，或者对SFS Turbo存储空间进行扩容。

高性能弹性文件服务 SFS TURBO 数据管理

高性能弹性文件服务 SFS TURBO-存储联动:使用限制

使用限制支持存储联动的SFS Turbo文件系统规格有：20MB/s/TiB、40MB/s/TiB、125MB/s/TiB、250MB/s/TiB、500MB/s/TiB、1000MB/s/TiB。 SFS Turbo目录和OBS配置联动后不支持以下操作：硬链接、重命名和目录配额。单个SFS Turbo文件系统最多可配置16个OBS联动目录。创建 OBS 后端存储库，依赖的服务是对象存储服务 OBS。用户需要额外配置OBS Adminstrator权限。同一层目录下不允许同样名称的文件和目录存在。不支持超长路径，数据流动支持的路径最大长度是1023字符。数据流动导入时，不支持长度大于255字节的文件名或子目录名。开启WORM策略的OBS桶，只能从OBS桶导入数据到SFS Turbo，无法从SFS Turbo导出数据到OBS桶。

高性能弹性文件服务 SFS TURBO 数据管理

高性能弹性文件服务 SFS TURBO-存储联动:元数据导入功能

元数据导入功能 SFS Turbo文件系统绑定OBS桶后，可以使用元数据导入功能。当您使用SFS Turbo文件系统访问OBS桶的数据时，您需要使用元数据导入功能提前将OBS数据文件的元数据（名称、大小、最后修改时间）导入到SFS Turbo文件系统中。只有元数据导入之后，您才可以在文件系统的联动子目录中去访问OBS存储桶中的数据。元数据导入功能仅会导入文件元数据，文件内容会在首次访问时从OBS存储桶中加载并缓存在SFS Turbo中，后续重复访问会直接命中，无需再从OBS存储桶中加载。 SFS Turbo文件系统提供快速导入和附加元数据导入两种元数据导入方式。元数据导入之后，您可以在联动子目录下看到导入的目录和文件列表。快速导入：当您绑定的OBS桶中存储的数据不是来源于SFS Turbo导出时，可以选择快速导入方式，快速导入方式仅会导入OBS的元数据（名称、大小、最后修改时间），不会导入其它附加元数据（如uid、gid、mode），SFS Turbo会生成默认的附加元数据（uid、gid、目录权限、文件权限），如果您想指定导入的目录和文件的权限，请提交工单申请。快速导入能够提供更快的元数据导入性能，推荐您使用快速导入。附加元数据导入：当您绑定的OBS桶中存储的数据是来源于SFS Turbo导出时，可以使用附加元数据导入方式，附加元数据导入方式会导入OBS的元数据（名称、大小、最后修改时间）以及来源于SFS Turbo导出时的附加元数据（如uid、gid、mode）。在绑定OBS桶之后，单击“元数据导入”选项。图2 元数据导入 “导入前缀”请填写绑定OBS桶内对象的前缀，可以具体到某个对象名。如果要导入整个OBS桶内的所有对象，则不用填写。勾选“附加元数据导入”将会采用附加元数据导入方式，不勾选“附加元数据导入”将采用快速导入方式。单击“确定”，提交导入任务。在OBS数据导入到SFS Turbo之后，如果OBS桶中的数据发生新增或修改，需要重新导入到SFS Turbo中。不支持长度大于255字节的文件名或子目录名。

高性能弹性文件服务 SFS TURBO 数据管理

高性能弹性文件服务 SFS TURBO-存储联动:概述

概述 AI训练和推理、高性能数据预处理、EDA、渲染、仿真等场景下，您可以通过SFS Turbo文件系统来加速OBS对象存储中的数据访问。SFS Turbo文件系统支持无缝访问存储在OBS对象存储桶中的对象。您可以指定SFS Turbo内的目录与OBS对象存储桶进行关联，然后通过创建导入导出任务实现数据同步。您可以在上层训练等任务开始前将OBS对象存储桶中的数据提前导入到SFS Turbo中，加速对OBS对象存储中的数据访问；上层任务产生的中间和结果等数据可以直接高速写入到SFS Turbo缓存中，中间缓存数据可被下游业务环节继续读取并处理，结果数据可以异步方式导出到关联的OBS对象存储中进行长期低成本存储。同时，您还可以配置缓存数据淘汰功能，及时将长期未访问的数据从SFS Turbo缓存中淘汰，释放SFS Turbo高性能缓存空间。

高性能弹性文件服务 SFS TURBO 数据管理

高性能弹性文件服务 SFS TURBO-存储联动:绑定OBS桶

绑定OBS桶登录高性能弹性文件服务管理控制台。在文件系统列表中，单击创建的文件系统名称，进入文件系统详情页面。进入“绑定后端存储”页签，单击“绑定OBS桶”。图1 绑定OBS桶在右侧弹窗“绑定OBS桶”中，填写如下参数。表1 参数说明参数含义限制配置后可编辑联动目录名称 SFS Turbo文件系统根目录下会以该名称创建一个子目录，该目录将绑定对应的OBS桶，且该目录名称不能和已有目录重名。子目录名称不能重复。子目录名称必须是文件系统根目录下不存在的目录名。子目录名称不能是“.”或“..”。不支持桶名 OBS存储桶桶名。无法绑定不存在的存储桶。目前仅支持OBS存储桶，不支持OBS并行文件系统。不支持 OBS区域域名 OBS区域域名，即OBS的终端节点。 OBS存储桶必须和SFS Turbo文件系统在同一个Region。不支持勾选“将OBS桶的读写权限通过桶策略授权给SFS Turbo云服务”，并单击“确定”，完成绑定。目前仅支持OBS存储桶，不支持OBS并行文件系统。绑定OBS桶时，会在OBS桶上添加Sid为“PolicyAddedBySFSTurbo”的桶策略，请不要修改或删除该桶策略，否则可能导致联动功能异常。以桶名为“obs-test”的OBS桶为例，桶策略“PolicyAddedBySFSTurbo”的内容如下所示： { "Statement": [ { "Sid": "PolicyAddedBySFSTurbo", "Effect": "Allow", "Principal": { "ID": [ "domain/xxx:user/xxx" ] }, "Action": [ "ListBucket", "HeadBucket", "GetBucketStorage", "GetBucketPolicy", "GetBucketAcl", "GetBucketNotification", "GetBucketQuota", "GetObject", "PutObject", "DeleteObject", "GetObjectAcl", "PutObjectAcl", "ModifyObjectMetaData" ], "Resource": [ "obs-test", "obs-test/*" ] } ] }

高性能弹性文件服务 SFS TURBO 数据管理

高性能弹性文件服务 SFS TURBO-存储联动:数据导入功能

数据导入功能 SFS Turbo文件系统绑定OBS桶后，可以使用数据导入功能。默认情况下，元数据导入完成后，数据不会导入到SFS Turbo文件系统中，初次访问会按需从OBS中加载数据，对文件的第一次读取操作可能耗时较长。如果您的业务对时延比较敏感，并且您知道业务需要访问哪些目录和文件，比如AI训练等场景涉及海量小文件，对时延比较敏感，可以选择提前导入指定目录和文件。数据导入功能会同时导入元数据和数据内容，元数据将会采用快速导入方式，不会导入其他附加元数据（如uid、gid、mode）。在绑定OBS桶之后，单击“数据导入”选项。图3 数据导入 “对象路径”请填写绑定OBS桶内对象的路径（不包含桶名）。 OBS桶中的对象路径（不包含桶名），目录需以“/”结尾。如果要导入OBS桶内所有对象，则不用填写对象路径。SFS Turbo会将数据导入到联动目录下，且联动目录下的文件路径和OBS桶里的对象路径保持一致。对象路径示例（“/mnt/sfs_turbo”为您的挂载目录，“output-1”为您的联动目录名称）：如对象路径为dir/，则会导入到“/mnt/sfs_turbo/output-1/dir” 如对象路径为dir/file, 则会导入到“/mnt/sfs_turbo/output-1/dir/file” 如对象路径为空，则会直接导入到“/mnt/sfs_turbo/output-1” 单击“确定”，提交导入任务。在OBS数据导入到SFS Turbo之后，如果OBS桶中的数据发生新增或修改，需要重新导入到SFS Turbo中。通过API使用数据导入功能的具体操作请参考创建SFSTurbo 和 OBS 之间的联动任务。不支持长度大于255字节的文件名或子目录名。

高性能弹性文件服务 SFS TURBO 数据管理

高性能弹性文件服务 SFS TURBO-存储联动:数据导出功能

数据导出功能 SFS Turbo文件系统绑定OBS桶后，可以使用数据导出功能。当您在联动目录创建一些文件，或者对从OBS导入的文件进行修改后，需要将这些文件存储到OBS桶里，可以使用数据导出功能。数据导出支持指定前缀，只有满足指定前缀的目录和文件才会被导出到OBS桶里。在绑定OBS桶之后，单击“导出”选项。图4 数据导出 “导出文件前缀”请填写需要导出的目录和文件前缀（路径不包含联动目录），可以具体到某个文件。如果要导出整个联动目录到OBS桶，则不用填写。单击“确定”，提交导出任务。数据导出功能会启动异步任务对导出目录内的文件进行扫描并导出，如果扫描时发现文件10s内发生过更新，则本次任务不会导出该文件。对于一个文件的所有修改，导出到OBS桶之后，下次再提交该文件的导出任务时，如果该文件未发生过变化，则该文件不会被再次导出，即使OBS桶里已经将导出的对象删掉了，也不会再导出该文件。从SFS Turbo导出的对象，在OBS对象的自定义元数据里保存了一些SFS Turbo的元数据信息，名称以x-obs-meta-sfsturbo-st-开头。不支持超长路径，可导出文件路径的最大长度为1023个字符。文件系统内单个文件大小上限为320TB、可导出的单个文件大小上限为48.8TB。大文件导出时OBS桶内x-obs-upload-sfsturbo-temp-part目录会存储大文件导出过程中产生的临时文件，导出完成后会自动删除该目录及临时文件。导出数据时：导入到SFS Turbo的对象，当在SFS Turbo里修改了，再从SFS Turbo导出这个对象时，如果OBS桶里该对象没有发生过修改，则会覆盖OBS桶里的对象，如果OBS桶里该对象发生过修改，则不会覆盖。对象正在被导出时，上传同名对象可能会造成新上传的对象被覆盖。开启WORM策略的OBS桶，无法从SFS Turbo导出数据到OBS桶。

高性能弹性文件服务 SFS TURBO 数据管理

云监控服务 CES-查询监控数据:返回值

返回值正常 200 异常返回值说明 400 Bad Request 请求错误。 401 Unauthorized 未提供认证信息，或认证信息错误。 403 Forbidden 请求页面被禁止访问。 408 Request Timeout 请求超出了服务器的等待时间。 429 Too Many Requests 当前请求过多。 500 Internal Server Error 请求未完成，服务异常。 503 Service Unavailable 系统暂时不可用，请求受限。

云监控服务 CES 监控数据管理

云监控服务 CES-查询监控数据:响应消息

响应消息响应参数表3 响应参数名称参数类型说明 datapoints Array of objects 指标数据列表。详细参数请参见表4。由于查询数据时，云监控会根据所选择的聚合粒度向前取整from参数，所以datapoints中包含的数据点有可能会多于预期。 metric_name String 指标ID，例如弹性云服务器的监控指标CPU使用率，对应的metric_name为cpu_util。各服务监控指标请参考支持监控的服务列表。表4 datapoints字段数据结构说明名称参数类型说明 average Double 聚合周期内指标数据的平均值。 max Double 聚合周期内指标数据的最大值。 min Double 聚合周期内指标数据的最小值。 sum Double 聚合周期内指标数据的求和值。 variance Double 聚合周期内指标数据的方差。 timestamp Long 指标采集时间，UNIX时间戳，单位毫秒。 unit String 指标单位。响应样例响应样例一：维度为SYS.E CS ，响应弹性云服务器，CPU使用率的平均值。 { "datapoints": [ { "average": 0.23, "timestamp": 1442341200000, "unit": "%" } ], "metric_name": "cpu_util" } 响应样例二：维度为SYS.ECS，响应弹性云服务器，CPU使用率的求和值。 { "datapoints": [ { "sum": 0.53, "timestamp": 1442341200000, "unit": "%" } ], "metric_name": "cpu_util" } 响应样例三：维度为SYS.ECS，响应弹性云服务器，CPU使用率的最大值。 { "datapoints": [ { "max": 0.13, "timestamp": 1442341200000, "unit": "%" } ], "metric_name": "cpu_util" }

云监控服务 CES 监控数据管理

云监控服务 CES-查询监控数据:URI

URI GET /V1.0/{project_id}/metric-data 样例： GET /V1.0/{project_id}/metric-data?namespace={namespace}&metric_name={metric_name}&dim.{i}=key,value&from={from}&to={to}&period={period}&filter={filter} 参数说明表1 参数说明名称是否必选说明 project_id 是项目ID。获取方式请参见获取项目ID。表2 查询检索参数名称是否必选参数类型说明 namespace 是 String 服务的命名空间，各服务命名空间请参考支持监控的服务列表。格式为service.item；service和item必须是字符串，必须以字母开头，只能包含0-9/a-z/A-Z/_，service.item总长度最短为3，最大为32。 metric_name 是 String 指标名称，可通过查询指标列表获取已有的告警规则的指标名。 from 是 String 查询数据起始时间，UNIX时间戳，单位毫秒（ms）。由于聚合运算的过程是将一个聚合周期范围内的数据点聚合到周期起始边界上，如果将from和to的范围设置在聚合周期内，会因为聚合未完成而造成查询数据为空，所以建议from参数相对于当前时间向前偏移至少1个周期。以5分钟聚合周期为例：假设当前时间点为10:35，10:30~10:35之间的原始数据会被聚合到10:30这个点上，所以查询5分钟数据点时from参数应为10:30。说明：云监控会根据所选择的聚合粒度向前取整from参数。 to 是 String 查询数据截止时间UNIX时间戳，单位毫秒（ms）。from必须小于to。 period 是 Integer 监控数据粒度。取值范围： 1，实时数据 300，5分钟粒度 1200，20分钟粒度 3600，1小时粒度 14400，4小时粒度 86400，1天粒度 filter 是 String 数据聚合方式，支持的聚合方式如下: average：聚合周期内指标数据的平均值。 max：聚合周期内指标数据的最大值。 min：聚合周期内指标数据的最小值。 sum：聚合周期内指标数据的求和值。 variance：聚合周期内指标数据的方差。说明：聚合运算的过程是将一个聚合周期范围内的数据点根据相应的聚合算法聚合到周期起始边界上，以5分钟聚合周期为例：假设当前时间点为10:35，则10:30~10:35之间的原始数据会被聚合到10:30这个时间点。 dim 是 String 指标的维度，目前最大支持4个维度，维度编号从0开始；维度格式为dim.{i}=key,value，key的最大长度32，value的最大长度为256。 CloudTable仅支持多维度查询。以下维度说明仅为示例，具体是否支持多维度请参见各服务中监控指标说明中的维度说明。单维度：dim.0=instance_id,i-12345 多维度：dim.0=instance_id,i-12345&dim.1=instance_name,i-1234 对于dim字段的内容，可通过调用查询指标列表接口，在其响应体的相关指标数据中获取。对于OBS相关指标数据，当进行了相关OBS接口操作时可查询到相关指标数据，否则查询结果为空。对于EVS相关指标数据，disk_name维度下，它的返回值有云服务器实例ID-盘符名和云服务器实例ID-volume-卷ID两种。云服务器实例ID-盘符名，例如：6f3c6f91-4b24-4e1b-b7d1-a94ac1cb011d-vda(vda为盘符名)。云服务器实例ID-volume-卷ID，例如：6f3c6f91-4b24-4e1b-b7d1-a94ac1cb011d-volume-31f45764-38b3-44ad-aaca-4015c83371e6。样例：请求样例一：查看弹性云服务器ID为6f3c6f91-4b24-4e1b-b7d1-a94ac1cb011d的CPU使用率在2019-04-30 20:00:00到2019-04-30 22:00:00时间内，周期为20分钟的监控数据。 GET https://{云监控的endpoint}/V1.0/{project_id}/metric-data?namespace=SYS.ECS&metric_name=cpu_util&dim.0=instance_id,6f3c6f91-4b24-4e1b-b7d1-a94ac1cb011d&from=1556625600000&to=1556632800000&period=1200&filter=min 请求样例二：查询CloudTable服务维度分别是cluster_id为f2fbxxxc-36b2-4d1d-895d-972a4d656xxx和instance_name为hmaster-active的监控指标cmdProcessMem，在2019-04-30 20:00:00到2019-04-30 22:00:00时间内，周期为20分钟的监控数据。 GET https://{云监控的endpoint}/V1.0/{project_id}/metric-data?namespace=SYS.CloudTable&metric_name=cmdProcessMem&dim.0=cluster_id,f2fbxxxc-36b2-4d1d-895d-972a4d656xxx&dim.1=instance_name,hmaster-active&from=1556625600000&to=1556632800000&period=1200&filter=variance

云监控服务 CES 监控数据管理

数据治理中心 DATAARTS STUDIO-数据管理流程

数据管理流程数据管理功能可以协助用户快速建立数据模型，为后续的脚本和作业开发提供数据实体。通过数据管理，您可以：支持管理DWS、 MRS Hive、MRS Spark、 DLI 等多种数据湖。支持可视化和DDL方式管理数据库表。注意，在MRS API连接方式下，不支持通过可视化方式查看与管理该连接下的数据库、数据表和字段。单击可以查看数据连接目录树下的数据库、数据表以及字段信息。DWS SQL、DLI SQL、MRS Hive SQL、MRS Spark SQL代理模式均支持查看目录树，其他数据连接均不支持。如果您在使用数据开发前，已创建了数据连接和对应的数据库和数据表，则可跳过数据管理操作，直接进入脚本开发或作业开发。数据管理的使用流程如下：图1 数据管理流程创建数据连接，连接相关数据湖底座服务。具体请参见新建数据连接。基于相应服务，新建数据库。具体请参见新建数据库。如果是DWS连接，则需要新建数据库模式；否则直接新建数据表。具体请参见（可选）新建数据库模式。新建数据表。具体请参见新建数据表。父主题：数据管理

数据治理中心 DATAARTS STUDIO 数据管理

AI开发平台MODELARTS-提交验收任务的样本评审意见:请求示例

请求示例提交验收任务的样本评审意见。设置是否通过为“true”，评审分数为“A”。 { "comments" : [ { "worker_id" : "8c15ad080d3eabad14037b4eb00d6a6f", "sample_id" : "09ac49d5b06385849c8769fdcf0f6d60", "accept" : true, "comment" : "", "score" : "A" } ] }

AI开发平台MODELARTS 数据管理（旧版）

AI开发平台MODELARTS-提交验收任务的样本评审意见:URI

URI POST /v2/{project_id}/datasets/{dataset_id}/workforce-tasks/{workforce_task_id}/acceptance/batch-comment 表1 路径参数参数是否必选参数类型描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workforce_task_id 是 String 标注任务ID。

AI开发平台MODELARTS 数据管理（旧版）

AI开发平台MODELARTS-添加图片时，图片大小有限制吗？

添加图片时，图片大小有限制吗？在数据管理功能中，针对“物体检测”或“图像分类”的数据集，在数据集中上传更多的图片时，是有限制的。要求单张图片大小不超过8MB，且只支持JPG、JPEG、PNG和BMP四种格式的图片。请注意，针对自动学习功能中的添加图片，其图片大小限制不同，要求上传的图片大小不超过5MB。解决方案：方法1：使用导入功能。将图片上传至OBS任意目录，通过“从OBS目录导入”方式导入到已有数据集。方法2：使用同步数据源功能。将图片上传到数据集输入目录下（或者其子目录），单击数据集详情页中的“同步数据源”将新增图片导入。需注意的是，同步数据源同时也会将OBS已删除的文件从数据集也删除，请谨慎操作。方法3：新建数据集。将图片上传至OBS任意目录，可以直接使用这些图片目录作为数据集的输入目录，新建一个数据集。父主题：数据管理

AI开发平台MODELARTS 数据管理

云服务器内容精选

数据管理

7*24

备案

专业服务

退订

建议反馈

售前咨询热线