华为云用户手册

  • 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 total_count Integer 部署服务规格总数。 count Integer 当前列表的规格数量。 specifications Array of Specification objects 支持的服务部署规格列表。 表5 Specification 参数 参数类型 描述 is_open Boolean 是否开放此规格,默认是true;取值为false时,用户需要提工单申请才可使用此规格。 spec_status String 规格状态,取值为: normal:正常。 sellout:售罄,售罄时无法使用此规格部署服务。 specification String 规格的唯一标识。 billing_spec String 计费对应规格的唯一标识。 category String 规格类型。 cpu_info CpuInfo object 规格的CPU信息。 memory_info MemoryInfo object 规格的内存信息。 gpu_info GpuInfo object 规格的GPU信息。 npu_info NpuInfo object 规格的NPU信息。 source_type String 此规格应用于模型的类型,取值为空或auto,默认为空,代表是用户自己产生的模型;取值为auto时,代表是自动学习训练的模型,计费方式有差别。 is_free Boolean 当前规格是否是免费规格,“true”表示是免费规格。 over_quota Boolean 当前规格是否超过可用配额,“true”表示超过可用配额。 extend_params Integer 计费因子。 display_en String 规格的英文描述。 display_cn String 规格的中文描述。 表6 CpuInfo 参数 参数类型 描述 arch String 架构类型。 cpu Number CPU核心数。 表7 MemoryInfo 参数 参数类型 描述 unit String 单位。 memory Integer 内存大小。 表8 GpuInfo 参数 参数类型 描述 brand String 品牌。 version String 卡类型。 unit String 单位。 memory Integer 卡内存大小。 gpu Number GPU数。 表9 NpuInfo 参数 参数类型 描述 brand String 品牌。 version String 卡类型。 unit String 单位。 memory Integer 卡内存大小。 npu Integer NPU数。
  • 响应示例 状态码: 200 监控信息 { "service_name" : "mnist", "service_id" : "195c1f2d-136d-40af-a0f3-db5717d2634a", "monitors" : [ { "failed_times" : 1, "model_version" : "1.0.0", "cpu_core_total" : 4, "cpu_memory_total" : 8192, "model_name" : "minst", "gpu_usage" : 0.6, "cpu_memory_usage" : 2011, "gpu_total" : 1, "model_id" : "0e07b41b-173e-42db-8c16-8e1b44cc0d44", "invocation_times" : 50, "cpu_core_usage" : 2.4 } ] }
  • URI GET /v1/{project_id}/services/{service_id}/monitor 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 service_id 是 String 服务ID。 表2 Query参数 参数 是否必选 参数类型 描述 node_id 否 String 待查询的边缘节点ID,仅当infer_type为edge时可指定,默认查询所有节点。
  • 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 service_name String 服务名称。 service_id String 服务ID。 monitors Array of Monitor objects 监控信息详情。 service_running_instance_count Integer 服务运行中实例数量。 service_instance_count Integer 服务实例数量。 req_count_per_min Long 服务分钟调用量,这里指当前时间上一分钟的服务调用总量。 表5 Monitor 参数 参数类型 描述 failed_times Integer 模型实例调用失败次数,在线服务字段。 model_version String 模型版本,在线服务字段。 cpu_memory_total Integer 总内存,单位MB。 gpu_usage Float 已使用GPU个数。 node_name String 节点名称,边缘服务字段。 gpu_total Float 总GPU个数。 model_id String 模型ID,在线服务字段。 invocation_times Integer 模型实例的总调用次数,在线服务字段。 cpu_core_usage Float 已使用CPU核数。 cpu_core_total Float 总CPU核数。 model_name String 模型名称,在线服务字段。 cpu_memory_usage Integer 已使用内存,单位MB。 node_id String 边缘节点ID,边缘服务字段。 model_running_instance_count Integer 模型运行中实例数。 model_instance_count Integer 模型实例数。 gpu_memory_total Float gpu总显存,单位MB。 gpu_memory_usage Float 已使用gpu显存,单位MB。 npu_total Float 总NPU个数。 npu_usage Float 已使用NPU个数。 npu_memory_total Float npu总显存,单位MB。 npu_memory_usage Float 已使用npu显存,单位MB。
  • 响应示例 状态码: 200 服务事件日志。 { "service_name" : "service-07085", "total_count" : 9, "service_id" : "35de3ca9-1bca-4ae7-9cb0-914f30fa7d3e", "count" : 9, "events" : [ { "event_type" : "normal", "event_info" : "start to deploy service", "occur_time" : 1562597251764 }, { "event_type" : "normal", "event_info" : "building image for model [TF 3.0.0]", "occur_time" : 1562597251788 }, { "event_type" : "normal", "event_info" : "model (TF 3.0.0) build image success", "occur_time" : 1562597251805 }, { "event_type" : "normal", "event_info" : "preparing environment", "occur_time" : 1562597255744 }, { "event_type" : "normal", "event_info" : "[TF 3.0.0] prepare environment success", "occur_time" : 1562597275915 }, { "event_type" : "normal", "event_info" : "[TF 3.0.0] schedule resource success", "occur_time" : 1562597275921 }, { "event_type" : "normal", "event_info" : "[TF 3.0.0] pulling model image", "occur_time" : 1562597275928 }, { "event_type" : "normal", "event_info" : "[TF 3.0.0] pull image success", "occur_time" : 1562597332570 }, { "event_type" : "normal", "event_info" : "[TF 3.0.0] starting model", "occur_time" : 1562597332582 } ] }
  • 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 service_name String 服务名称。 total_count Integer 不分页的情况下符合查询条件的事件总数量。 service_id String 服务ID。 count Integer 当前查询结果的事件数量。 events Array of Events objects 服务的事件日志。 表5 Events 参数 参数类型 描述 event_type String 事件类型,取值为: normal:正常事件 abnormal:异常事件 event_info String 事件信息,当前主要描述部署过程5个阶段的信息,后续可根据情况继续补充。这5个阶段分别是构建镜像、准备环境、调度资源、拉取镜像、启动模型。 occur_time Number 事件发生时间,距“1970.1.1 0:0:0 UTC”的毫秒数。
  • 响应示例 状态码: 200 服务详情 { "service_id" : "f76f20ba-78f5-44e8-893a-37c8c600c02f", "service_name" : "service-demo", "tenant" : "xxxxx", "project" : "xxxxx", "owner" : "xxxxx", "publish_at" : 1585809231902, "update_time" : 1585809358259, "infer_type" : "real-time", "status" : "running", "progress" : 100, "access_address" : "https://xxxxx.apigw.xxxxx.com/v1/infers/088458d9-5755-4110-97d8-1d21065ea10b/f76f20ba-78f5-44e8-893a-37c8c600c02f", "cluster_id" : "088458d9-5755-4110-97d8-1d21065ea10b", "workspace_id" : "0", "additional_properties" : { }, "is_shared" : false, "invocation_times" : 0, "failed_times" : 0, "shared_count" : 0, "operation_time" : 1586249085447, "config" : [ { "model_id" : "044ebf3d-8bf4-48df-bf40-bad0e664c1e2", "model_name" : "jar-model", "model_version" : "1.0.1", "specification" : "custom", "custom_spec" : { }, "status" : "notReady", "weight" : 100, "instance_count" : 1, "scaling" : false, "envs" : { }, "additional_properties" : { }, "support_debug" : false } ], "transition_at" : 1585809231902, "is_free" : false }
  • URI GET /v1/{project_id}/services/{service_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 service_id 是 String 服务ID,在创建服务时即可在返回体中获取,也可通过查询服务列表接口获取当前用户拥有的服务,其中service_id字段即为服务ID。
  • 响应示例 状态码: 200 ok { "search_algo_count" : 3, "search_algo_list" : [ { "name" : "bayes_opt_search", "params" : [ { "key" : "kind", "value" : "ucb", "type" : "String" }, { "key" : "kappa", "value" : "2.5", "type" : "Float" }, { "key" : "xi", "value" : "0.0", "type" : "Float" }, { "key" : "num_samples", "value" : "20", "type" : "Integer" }, { "key" : "seed", "value" : "1", "type" : "Integer" } ], "description" : "Hyperparameter search using Gaussian process." }, { "name" : "tpe_search", "params" : [ { "key" : "gamma", "value" : "0.25", "type" : "Float" }, { "key" : "n_initial_points", "value" : "20", "type" : "Integer" }, { "key" : "num_samples", "value" : "20", "type" : "Integer" }, { "key" : "seed", "value" : "1", "type" : "Integer" } ], "description" : "Hyperparameter search using the tree-structured Parzen estimator algorithm." }, { "name" : "anneal_search", "params" : [ { "key" : "avg_best_idx", "value" : "2.0", "type" : "Float" }, { "key" : "shrink_coef", "value" : "0.1", "type" : "Float" }, { "key" : "num_samples", "value" : "20", "type" : "Integer" }, { "key" : "seed", "value" : "1", "type" : "Integer" } ], "description" : "Hyperparameter search using simulated annealing algorithm." } ] }
  • 响应参数 状态码: 200 表2 响应Body参数 参数 参数类型 描述 search_algo_count Integer 超参搜索算法的个数。 search_algo_list Array of search_algo_list objects 所有超参搜索算法的列表。 表3 search_algo_list 参数 参数类型 描述 name String 超参搜索算法的名称。 params Array of params objects 超参搜索算法的参数列表。 description String 超参搜索算法的描述。 表4 params 参数 参数类型 描述 key String 超参搜索算法的参数名称。 value String 超参搜索算法的参数取值。 type String 超参搜索算法的参数类型。
  • 响应示例 状态码: 200 查询训练作业镜像保存任务成功 { "name" : "imagesave", "namespace" : "dev", "tag" : 0.1, "description" : "hello world!", "status" : "ACTIVE", "message" : "building", "create_time" : 1686718209968 }
  • URI GET /v2/{project_id}/training-jobs/{training_job_id}/tasks/{task_id}/save-image-job 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 task_id 是 String 训练作业的任务名称。可从训练作业详情中的status.tasks字段中获取。
  • 响应参数 状态码: 200 表2 响应Body参数 参数 参数类型 描述 name String 镜像名称,长度限制512个字符,支持小写字母、数字、中划线、下划线和点。 namespace String 镜像所属组织,可以在SWR控制台“组织管理”创建和查看。 tag String 镜像tag,长度限制64个字符, 支持大小写字母、数字、中划线、下划线和点。 description String 该镜像所对应的描述信息,长度限制512个字符。 status String 镜像状态。枚举值如下: INIT:初始化。 CREATING:镜像保存中,此时训练作业不可用。 CREATE_FAILED:镜像保存失败。 ACTIVE:镜像保存成功,保存的镜像可以在SWR控制台查看,同时可以基于保存的镜像创建训练作业。 message String 镜像创建的时间,UTC毫秒。 create_time Long 镜像保存操作过程中,展示构建信息。
  • 响应参数 状态码: 204 表2 响应Body参数 参数 参数类型 描述 tags Array of PoolTag objects 资源标签的列表。 表3 PoolTag 参数 参数类型 描述 key String 资源类型的标签 values Array of strings 资源类型的标签值 状态码: 400 表4 响应Body参数 参数 参数类型 描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。 状态码: 401 表5 响应Body参数 参数 参数类型 描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。 状态码: 403 表6 响应Body参数 参数 参数类型 描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。 状态码: 404 表7 响应Body参数 参数 参数类型 描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。
  • 响应示例 状态码: 200 OK。 { "statistics" : { "status" : { "created" : 3, "creating" : 0, "failed" : 1, "pending" : 0 } }, "operationTime" : "2022-12-05 11:15:59.329633162 +0000 UTC" } 状态码: 500 Internal error { "error_code" : "ModelArts.50005000", "error_msg" : "internal error" }
  • 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 statistics statistics object 资源池统计信息。 operationTime String 统计的时间。 表4 statistics 参数 参数类型 描述 status status object 不同状态下的资源池统计信息。 表5 status 参数 参数类型 描述 creating Integer 正在创建中的资源池数量。 created Integer 创建成功的资源池数量。 failed Integer 最近三天内创建失败的资源池数量,最大值为500。 pending Integer 等待中的资源池数量,通常是未支付的包周期资源池。 状态码: 500 表6 响应Body参数 参数 参数类型 描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。
  • 响应示例 状态码: 200 OK。 { "apiVersion" : "v2", "kind" : "PoolMetricsList", "items" : [ { "table" : { "allocated" : { "value" : { "cpu" : 5, "memory" : "15548Mi", "tnt004" : "1073m" }, "timestamp" : "2022-03-30T07:09:10Z", "window" : "1m" }, "capacity" : { "value" : { "cpu" : 16, "memory" : "64Gi", "tnt004" : 2 }, "maxValue" : { "cpu" : 16, "memory" : "64Gi", "tnt004" : 2 }, "timestamp" : "2022-03-30T07:09:10Z", "window" : "1m" } }, "metadata" : { "name" : "hougang-rse-pool" } } ] }
  • 响应参数 状态码: 200 表2 响应Body参数 参数 参数类型 描述 apiVersion String 资源版本。可选值如下: os.modelarts.xxxxx/v2 kind String 资源类型。可选值如下: PoolMetricsList items Array of MetricsItem objects 指标列表。 表3 MetricsItem 参数 参数类型 描述 table table object 资源列表。 metadata ResourceMetricsMetadata object 资源指标的元信息。 表4 table 参数 参数类型 描述 allocated Allocated object 资源已分配量。 capacity Capacity object 资源总容量。 表5 Allocated 参数 参数类型 描述 value Value object 资源量。 timestamp String UTC时间,格式yyyy-MM-dd'T'HH:mm:ss'Z'。 window String 统计间隔,1s表示1秒,1m表示1分钟,1h为1小时。 表6 Capacity 参数 参数类型 描述 value Value object 资源量。 maxValue Value object 最大弹性资源量。 timestamp String UTC时间,格式yyyy-MM-dd'T'HH:mm:ss'Z'。 window String 统计间隔,1s表示1秒,1m表示1分钟,1h为1小时。 表7 Value 参数 参数类型 描述 cpu String cpu量,即计算资源量。 memory String 内存。 tnt004 String GPU卡的数量。 表8 ResourceMetricsMetadata 参数 参数类型 描述 name String 资源指标的名称。 labels Object 资源指标的标签信息。
  • 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 metrics Array of metrics objects 指标对象列表。 取值范围 JSON数组大小不超过20。 表4 metrics 参数 参数类型 描述 metric metric object 指标参数集合。 dataPoints Array of dataPoints objects 重点指标。 表5 metric 参数 参数类型 描述 dimensions Array of dimensions objects 指标维度列表。 metricName String 指标名称。 namespace String 指标命名空间。可选值如下: PAAS.CONTAINER:组件指标、实例指标、进程指标和容器指标的命名空间 PAAS.NODE: 主机指标、网络指标、磁盘指标和文件系统指标的命名空间 PAAS.SLA:SLA指标的命名空间 PAAS.AGGR:集群指标的命名空间 CUSTOMMETRI CS :默认的自定义指标的命名空间 表6 dimensions 参数 参数类型 描述 name String 指标维度名称。 value String 指标维度取值。 表7 dataPoints 参数 参数类型 描述 timestamp Integer 时间戳。 unit String 时间序列单位。 statistics Array of statistics objects 统计值列表。 表8 statistics 参数 参数类型 描述 statistic String 统计方式。 value Float 统计结果。 状态码: 404 表9 响应Body参数 参数 参数类型 描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。
  • 响应示例 状态码: 200 OK。 { "metrics" : [ { "metric" : { "dimensions" : [ { "name" : "clusterId", "value" : "83df17f1-d74c-11ec-a070-0255ac1000c3" } ], "metricName" : "cpuUsage", "namespace" : "PAAS.AGGR" }, "dataPoints" : [ { "timestamp" : 1655193600000, "unit" : "Percent", "statistics" : [ { "statistic" : "average", "value" : 7.944 } ] }, { "timestamp" : 1655197200000, "unit" : "Percent", "statistics" : [ { "statistic" : "average", "value" : 7.88 } ] } ] }, { "metric" : { "dimensions" : [ { "name" : "clusterId", "value" : "83df17f1-d74c-11ec-a070-0255ac1000c3" } ], "metricName" : "memUsedRate", "namespace" : "PAAS.AGGR" }, "dataPoints" : [ { "timestamp" : 1655193600000, "unit" : "Percent", "statistics" : [ { "statistic" : "average", "value" : 13.83 } ] }, { "timestamp" : 1655197200000, "unit" : "Percent", "statistics" : [ { "statistic" : "average", "value" : 13.836 } ] } ] }, { "metric" : { "dimensions" : [ { "name" : "clusterId", "value" : "83df17f1-d74c-11ec-a070-0255ac1000c3" } ], "metricName" : "gpuUtil", "namespace" : "PAAS.AGGR" }, "dataPoints" : [ { "timestamp" : 1655193600000, "unit" : "Percent", "statistics" : [ { "statistic" : "average", "value" : -1 } ] }, { "timestamp" : 1655197200000, "unit" : "Percent", "statistics" : [ { "statistic" : "average", "value" : -1 } ] } ] }, { "metric" : { "dimensions" : [ { "name" : "clusterId", "value" : "83df17f1-d74c-11ec-a070-0255ac1000c3" } ], "metricName" : "gpuMemUsage", "namespace" : "PAAS.AGGR" }, "dataPoints" : [ { "timestamp" : 1655193600000, "unit" : "Percent", "statistics" : [ { "statistic" : "average", "value" : -1 } ] }, { "timestamp" : 1655197200000, "unit" : "Percent", "statistics" : [ { "statistic" : "average", "value" : -1 } ] } ] }, { "metric" : { "dimensions" : [ { "name" : "clusterId", "value" : "83df17f1-d74c-11ec-a070-0255ac1000c3" } ], "metricName" : "npuUtil", "namespace" : "PAAS.AGGR" }, "dataPoints" : [ { "timestamp" : 1655193600000, "unit" : "", "statistics" : [ { "statistic" : "average", "value" : -1 } ] }, { "timestamp" : 1655197200000, "unit" : "", "statistics" : [ { "statistic" : "average", "value" : -1 } ] } ] }, { "metric" : { "dimensions" : [ { "name" : "clusterId", "value" : "83df17f1-d74c-11ec-a070-0255ac1000c3" } ], "metricName" : "npuMemUsage", "namespace" : "PAAS.AGGR" }, "dataPoints" : [ { "timestamp" : 1655193600000, "unit" : "", "statistics" : [ { "statistic" : "average", "value" : -1 } ] }, { "timestamp" : 1655197200000, "unit" : "", "statistics" : [ { "statistic" : "average", "value" : -1 } ] } ] }, { "metric" : { "dimensions" : [ { "name" : "clusterId", "value" : "83df17f1-d74c-11ec-a070-0255ac1000c3" } ], "metricName" : "diskAvailableCapacity", "namespace" : "PAAS.AGGR" }, "dataPoints" : [ { "timestamp" : 1655193600000, "unit" : "Megabytes", "statistics" : [ { "statistic" : "average", "value" : 834383.4 } ] }, { "timestamp" : 1655197200000, "unit" : "Megabytes", "statistics" : [ { "statistic" : "average", "value" : 834379.2 } ] } ] }, { "metric" : { "dimensions" : [ { "name" : "clusterId", "value" : "83df17f1-d74c-11ec-a070-0255ac1000c3" } ], "metricName" : "diskCapacity", "namespace" : "PAAS.AGGR" }, "dataPoints" : [ { "timestamp" : 1655193600000, "unit" : "Megabytes", "statistics" : [ { "statistic" : "average", "value" : 1105920 } ] }, { "timestamp" : 1655197200000, "unit" : "Megabytes", "statistics" : [ { "statistic" : "average", "value" : 1105920 } ] } ] }, { "metric" : { "dimensions" : [ { "name" : "clusterId", "value" : "83df17f1-d74c-11ec-a070-0255ac1000c3" } ], "metricName" : "diskUsedRate", "namespace" : "PAAS.AGGR" }, "dataPoints" : [ { "timestamp" : 1655193600000, "unit" : "Percent", "statistics" : [ { "statistic" : "average", "value" : 24.553 } ] }, { "timestamp" : 1655197200000, "unit" : "Percent", "statistics" : [ { "statistic" : "average", "value" : 24.553 } ] } ] } ] } 状态码: 404 Not Found。 { "error_code" : "ModelArts.50015001", "error_msg" : "pool not found" }
  • 响应示例 状态码: 200 OK。 { "kind" : "Pool", "apiVersion" : "v2", "metadata" : { "name" : "auto-pool-os-86c13962597848eeb29c5861153a391f", "creationTimestamp" : "2022-09-16T03:10:40Z", "labels" : { "os.modelarts/name" : "auto-pool-os", "os.modelarts/workspace.id" : "0", "os.modelarts/resource.id" : "maos-auto-pool-os-72w8d" }, "annotations" : { "os.modelarts/description" : "", "os.modelarts/billing.mode" : "0" } }, "spec" : { "type" : "Dedicate", "scope" : [ "Train", "Infer" ], "resources" : [ { "flavor" : "modelarts.vm.cpu.4ud", "count" : 2 } ], "network" : { "name" : "network-maos-86c13962597848eeb29c5861153a391f" } }, "status" : { "phase" : "Running", "root" : "auto-pool-os-86c13962597848eeb29c5861153a391f", "scope" : [ { "scopeType" : "Train", "state" : "Enabled" }, { "scopeType" : "Infer", "state" : "Enabled" } ], "resources" : { "available" : [ { "flavor" : "modelarts.vm.cpu.4ud", "count" : 2, "azs" : [ { "az" : "cn-north-7c", "count" : 2 } ] } ] } } } 状态码: 404 Not Found。 { "error_code" : "ModelArts.50015001", "error_msg" : "pool not found" }
  • 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 apiVersion String API版本。可选值如下: v2 kind String 资源类型。可选值如下: Pool:资源池 metadata PoolMetadata object 资源池的metadata信息。 spec PoolSpecModel object 资源池的期望信息。 status PoolStatus object 资源池的状态信息。 表4 PoolMetadata 参数 参数类型 描述 name String 系统自动生成的pool名称,相当于pool ID。 creationTimestamp String 时间戳,例如"2021-11-01T03:49:41Z"。 labels PoolMetaLabels object 资源池的标签信息。 annotations PoolMetaAnnotations object 资源池的注释信息。 表5 PoolMetaLabels 参数 参数类型 描述 os.modelarts/workspace.id String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 os.modelarts/name String 用户指定的pool名称。 os.modelarts/resource.id String 资源池的主资源id,通常提供给cbc使用。 os.modelarts/tenant.domain.id String 资源池的租户id,记录资源池创建在哪个租户账号下。 表6 PoolMetaAnnotations 参数 参数类型 描述 os.modelarts/description String 资源池的描述信息。 os.modelarts/billing.mode String 计费模式。可选值如下: 0:按需计费 1:包周期计费 os.modelarts/period.num String 包周期订购周期,比如2。 os.modelarts/period.type String 包周期订购类型。可选值如下: 2:月 3:年 4:小时 os.modelarts/auto.renew String 是否自动续费.可选值如下: 0:不自动续费,默认值 1:自动续费 os.modelarts/promotion.info String 用户在cbc选择的折扣信息。 os.modelarts/service.console.url String 订购订单支付完成后跳转的url地址。 os.modelarts/order.id String 订单id,包周期资源池创建或者计费模式变更的时候该参数必需。 os.modelarts/flavor.resource.ids String 每种规格对应的resourceId,主要和cbc交互使用。 os.modelarts/tms.tags String 创建的时候由用户指定的TMS标签。 表7 PoolSpecModel 参数 参数类型 描述 type String 资源池类型。可选值如下: Dedicate:物理资源池,独立的网络,支持网络打通,定制驱动,定制作业类型。 scope Array of strings 资源池支持的作业类型。至少选择一种,物理资源池支持全部选择。可选值如下: Train:训练作业 Infer:推理作业 Notebook:Notebook作业 resources Array of resources objects 资源池中的资源规格信列表,包括资源规格和相应规格的资源数量。 network network object 资源池网络参数。物理资源池时必选。 jobFlavors Array of strings 资源池支持的作业规格信息列表,内容为作业规格名称。 driver PoolDriver object 资源池的驱动信息。 controlMode Integer 资源池的受限状态。可选值如下: 0:代表不受限 1:转包周期受限 2:规格变更受限 4:服务受限 8:冻结 16:公安冻结(不可退订) 另外状态是可以叠加的,比如9代表转包周期受限+冻结状态。 表8 resources 参数 参数类型 描述 flavor String 资源规格,比如:modelarts.vm.gpu.tnt004。 count Integer 相应规格资源数量。 azs Array of PoolNodeAz objects az列表信息。 表9 PoolNodeAz 参数 参数类型 描述 az String 可用区名称。 count Integer 指定可用区扩容时,指定可用区的节点数。 表10 network 参数 参数类型 描述 name String 网络名称;用户接口通过指定网络名称创建网络,系统会自动创建子网,用户无法创建子网。默认将创建在第一个子网下。 表11 PoolDriver 参数 参数类型 描述 gpuVersion String GPU驱动版本,物理资源池中含有GPU规格时可填,例如:"440.33"。 npuVersion String NPU驱动版本,物理资源池中含有ascend规格时可填,例如:"C78"。 updateStrategy String 驱动升级策略。可选值如下: force:强制升级,立即升级节点驱动,可能影响节点上正在运行的作业 idle:安全升级,待节点上没有作业运行时进行驱动升级 表12 PoolStatus 参数 参数类型 描述 phase String 资源池集群状态。可选值如下: Creating:创建中 Running:运行中 Abnormal:资源池不正常 Deleting:删除中 Error:资源池错误 message String 资源池处于当前状态的提示信息。 resources resources object 资源池中不同状态的资源量。 scope Array of scope objects 资源池业务状态信息。 driver driver object 资源池驱动信息。 parent String 资源池父节点名称,物理池为空。 root String 资源池根节点名称,物理池为自己的名称。 表13 resources 参数 参数类型 描述 creating PoolResourceFlavorCount object 状态为创建中状态的资源量。 available PoolResourceFlavorCount object 状态为可用状态的资源量。 abnormal PoolResourceFlavorCount object 状态为非正常状态的资源量。 deleting PoolResourceFlavorCount object 状态为删除中状态的资源量。 表14 PoolResourceFlavorCount 参数 参数类型 描述 flavor String 资源规格名称,比如:modelarts.vm.gpu.tnt004。 count Integer 规格保障使用量。 maxCount Integer 资源规格的弹性使用量,物理池该值和count相同。 azs Array of azs objects 资源所在的AZ的数量。 nodePool String 节点池名称。比如:nodePool-1。 表15 azs 参数 参数类型 描述 az String AZ的名称。 count Integer AZ的资源数量。 表16 scope 参数 参数类型 描述 scopeType String 业务类型。可选值如下: Train:训练任务 Infer:推理任务 Notebook:Notebook作业 state String 业务状态。可选值如下: Enabling:启动中 Enabled:已启动 Disabling:关闭中 Disabled:已关闭 表17 driver 参数 参数类型 描述 gpu PoolDriverStatus object GPU驱动信息。 npu PoolDriverStatus object NPU驱动信息。 表18 PoolDriverStatus 参数 参数类型 描述 version String 当前驱动版本。 state String 当前驱动状态。可选值如下: Creating:创建中 Upgrading:升级中 Running:运行中 Abnormal:不正常 状态码: 404 表19 响应Body参数 参数 参数类型 描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。
  • 响应示例 状态码: 200 OK。 { "apiVersion" : "v1", "kind" : "PluginTemplate", "metadata" : { "name" : "npu-driver" }, "spec" : { "type" : "npuDriver", "description" : "npu driver", "versions" : { } } } 状态码: 404 Not Found。 { "error_code" : "ModelArts.50005101", "error_msg" : "Plugintemplate {name} not found." }
  • URI GET /v1/{project_id}/plugintemplates/{plugintemplate_name} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 plugintemplate_name 是 String 插件模板的名称。可选值如下: gpu-driver:GPU驱动插件模板信息 npu-driver:NPU驱动插件模板信息
  • 响应示例 状态码: 200 OK。 { "quotas" : { "resources" : [ { "type" : "pool", "quota" : 15, "used" : 10 }, { "type" : "network", "quota" : 15, "used" : 10 } ] } }
  • 响应参数 状态码: 200 表2 响应Body参数 参数 参数类型 描述 quotas Quota object 资源配额。 表3 Quota 参数 参数类型 描述 resources Array of ResourceQuota objects 资源的配额信息。 表4 ResourceQuota 参数 参数类型 描述 type String 资源类型。 quota String 资源配额上限。 used String 已使用配额。 状态码: 404 表5 响应Body参数 参数 参数类型 描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。
  • 响应参数 状态码: 200 表2 响应Body参数 参数 参数类型 描述 networkCidrs Array of strings 网络配置项。 networkQuota Integer 用户可创建网络个数配额。 poolQuota Integer 用户可创建资源池个数配额。 pooHighAvailable Boolean 当前环境/局点是否支持创建高可用资源池。 状态码: 404 表3 响应Body参数 参数 参数类型 描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。
  • 响应示例 状态码: 200 ok { "obs_url" : "http://10.155.101.248:20000/cnnorth4-test/xk/00chess_test/test11/logs/modelarts-job-0f2ccdbb-4f34-4d53-afb9-d526f3be8c68-ma-platform-init-worker-0-172.16.24.51-01909681.log?AWSAccessKeyId=xxxxx" }
  • 请求示例 如下以查询uuid为2cd88daa-31a4-40a8-a58f-d186b0e93e4f的训练作业对应work-0日志OBS临时链接为例。 GET https://endpoint/v2/{project_id}/training-jobs/2cd88daa-31a4-40a8-a58f-d186b0e93e4f/tasks/worker-0/logs/url?Content-Type=text/plain
  • URI GET /v2/{project_id}/training-jobs/{training_job_id}/tasks/{task_id}/logs/url 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 task_id 是 String 训练作业的任务名称。可从训练作业详情中的status.tasks字段中获取。
共100000条