华为云用户手册

  • URI POST /v1/{project_id}/eihealth-projects/{eihealth_project_id}/workflows/{workflow_id}/publish 表1 路径参数 参数 是否必选 参数类型 描述 eihealth_project_id 是 String 平台项目ID,您可以在平台单击所需的项目名称,进入项目设置页面查看。 最小长度:1 最大长度:128 project_id 是 String 华为云项目ID,您可以从获取项目ID中获取。 最小长度:1 最大长度:128 workflow_id 是 String 流程id 最小长度:1 最大长度:128
  • 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 用户Token。Token认证就是在调用API的时候将Token加到请求消息头,从而通过身份认证,获得操作API的权限, 获取Token 接口响应消息头中X-Subject-Token的值即为Token。 表3 请求Body参数 参数 是否必选 参数类型 描述 name 是 String 资产名称 最小长度:1 最大长度:56 version 是 String 资产版本 最小长度:1 最大长度:24 picture 否 String 封面图片base64编码 最小长度:0 最大长度:50000 title 否 String 展示名 最小长度:0 最大长度:128 summary 否 String 短描述 最小长度:0 最大长度:128 description 否 String 长描述 最小长度:0 最大长度:65535 labels 否 Array of strings 标签列表 最小长度:1 最大长度:32 数组长度:0 - 5
  • 请求示例 发布流程,流程的名称为demo-workflow,版本为1.0.0。 https://eihealth.cn-north-4.myhuaweicloud.com/v1/{project_id}/eihealth-projects/{eihealth_project_id}/workflows/publish { "name" : "demo-workflow", "version" : "1.0.0", "picture" : "", "labels" : [ "label1", "label2" ], "summary" : "summary", "description" : "description" }
  • 响应示例 状态码: 200 OK { "count" : 1, "models" : [ { "id" : "56e0f1b0-ac10-46a5-8fa7-b26831d7d488", "name" : "demo_name", "description" : "description", "status" : "FINISHED", "create_time" : "2021-01-30T02:34:36Z", "finish_time" : "2021-01-30T02:53:26Z", "creator" : "demo-user", "shareable" : true, "data_quantity" : 1000, "type" : "binary", "file" : { "source" : "PRIVATE", "url" : "project:/file/data.csv" }, "losses" : [ 6.2, 1.2, 4.54 ], "metrics" : [ { "name" : "rmse", "value" : 0.3744 }, { "name" : "mae", "value" : 0.2844 }, { "name" : "pcc", "value" : 0.4871 } ], "base_model_id" : "pangu-drug-model", "base_model_name" : "pangu-drug-model" } ] }
  • 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 models Array of ModelDto objects 模型列表。 count Integer 模型总数。 表5 ModelDto 参数 参数类型 描述 name String 模型名称。 id String 模型ID。 type String 模型类型。 create_time String 模型创建时间。 finish_time String 模型结束时间。 creator String 创建模型的用户名称。 status String 作业状态。 shareable Boolean 是否打开组织共享。 data_quantity Integer 模型数据量。 file ModelFile object 模型数据来源。 value_range ValueRange object 区间上下限,仅回归型存在。 description String 模型描述信息。 failed_message String 失败提示,当作业执行失败时会返回。 losses Array of floats 模型训练loss信息。 metrics Array of ModelMetric objects 模型评估指标。 base_model_id String 基模型id。 缺省值:pangu-drug-model base_model_name String 基模型名称。 缺省值:pangu-drug-model 表6 ModelFile 参数 参数类型 描述 source String 模型数据文件来源。 枚举值: public private url String 文件URL,用户私有数据中心为项目路径、公共数据场景为obs地址。 最小长度:1 最大长度:2000 eihealth_project_id String 模型文件所在项目id,仅文件为数据中心时填写。 最小长度:1 最大长度:128 表7 ValueRange 参数 参数类型 描述 lower Float 区间下限,仅回归型存在。 upper Float 区间上限,仅回归型存在。 表8 ModelMetric 参数 参数类型 描述 name String 评估指标的名称。 最小长度:1 最大长度:32 value Float 评估指标的评估结果。
  • URI GET /v1/{project_id}/drug-models 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,您可以从获取项目ID中获取。 最小长度:1 最大长度:128 表2 Query参数 参数 是否必选 参数类型 描述 search_key 否 String 模糊搜索值。 最小长度:0 最大长度:1024 creator_list 否 Array 创建者列表。 最小长度:1 最大长度:128 数组长度:0 - 50 type_list 否 Array 模型类型列表。 数组长度:0 - 10 status_list 否 Array 模型状态列表。 数组长度:0 - 10 sort_key 否 String 排序规则 目前默认时间降序,支持根据create_time|finish_time|base_model_name。 sort_dir 否 String 排序规则 目前默认时间降序。 缺省值:DESC create_start_time 否 Long 最小创建时间。 最小值:1000000000000 最大值:9999999999999 create_end_time 否 Long 最大创建时间。 最小值:1000000000000 最大值:9999999999999 finish_start_time 否 Long 最小结束时间。 最小值:1000000000000 最大值:9999999999999 finish_end_time 否 Long 最大结束时间。 最小值:1000000000000 最大值:9999999999999 limit 否 Integer 限制量,单次查询总量,必须由数字组成,默认为100,取值范围[1,1000]。 最小值:1 最大值:1000 缺省值:100 offset 否 Integer 偏移量,查询起始偏移,必须由数字组成,默认为0,取值范围[0,100000000]。 最小值:0 最大值:100000000 缺省值:0 base_model_list 否 Array 基模型id列表。 最小长度:0 最大长度:128 数组长度:0 - 10
  • 响应示例 状态码: 200 OK { "basic_info" : { "id" : "baabcb56-5bb6-11eb-8a0d-fa163e3ddba1", "name" : "demo-job", "labels" : [ "labelA", "labelB" ], "status" : "FINISHED", "type" : "OPTIMIZATION", "create_time" : "2021-01-30T02:34:36Z", "start_time" : "2021-01-30T02:34:37Z", "finish_time" : "2021-01-30T02:53:26Z", "failed_message" : "null", "user_name" : "demo-user-name", "output_dir" : "job-analysis/job-name", "expect_charge_num" : 1, "real_charge_num" : 1 }, "smiles" : "string", "num_trials" : 500, "binding_site" : { "name" : "binding_name", "receptor" : { "source" : "PRIVATE", "url" : "project:/test.pdb" }, "bounding_box" : { "center" : [ 0, 0, 0 ], "size" : [ 500, 500, 500 ] }, "remove_ion" : false, "remove_water" : false, "remove_ligand" : true }, "weak_constraints" : [ { "name" : "eye_corrosion", "type" : "bool", "bool" : true } ], "strong_constraints" : [ { "name" : "sascore", "type" : "range", "range" : [ 0, 1 ] } ], "cluster_result" : { "method" : "hiq_mc", "output_dir" : "project://bucket/path/to/task/dir/", "status" : "finished", "failed_reasons" : [ { "reason" : "failed reason" }, { "count" : 1 } ] } }
  • 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 basic_info DrugJobDto object 作业基本信息。 smiles String 分子SMILES表达式。 最小长度:1 最大长度:512 molecule_file DrugFile object 分子文件。 num_trials Integer 生成分子数量。 最小值:0 最大值:5000 binding_site BindSiteDto object 结合位点。 binding_sites Array of BindSiteDto objects 受体列表和受体是二选一的关系,受体列表优先级最高。 数组长度:0 - 2 weak_constraints Array of WeakConstraintDto objects 弱约束集合。 strong_constraints Array of StrongConstraintDto objects 强约束集合。 sampler_mixin_weight Float 初始化采样权重。 base_model BaseModel object 基模型。 models Array of BasicDrugModel objects 模型列表。 cluster_result ClusterJobRsp object 聚类结果信息。 表4 DrugJobDto 参数 参数类型 描述 id String 作业id。 name String 作业的名称,取值范围:[1,63],允许大小写字母、数字、以及特殊字符中划线(-)。 labels Array of strings 作业标签。 status String 作业状态。 type String 作业类型。 create_time String 作业创建时间。 finish_time String 作业结束时间。 start_time String 作业开始时间。 failed_message String 失败提示,当作业执行失败时会返回。 user_name String 创建任务的用户名称。 output_dir String 作业结果输出目录。 expect_charge_num Double 预估功能调用消耗次数。 real_charge_num Double 实际功能调用消耗次数。 progress Progress object 作业进度信息。 表5 Progress 参数 参数类型 描述 overall Float 整体进度。 estimated_finish_time Long 预计结束时间,毫秒。 表6 DrugFile 参数 参数类型 描述 source String 受体的数据源:外部网络数据(如R CS B在线数据库)、用户私有数据中心、承载租户公共数据(含样例/公共库)。 枚举值: EXTRANET PRIVATE PUBLIC RAW url String 文件URL,当数据源为外部网络数据时为https地址;用户私有数据中心为项目路径、公共数据场景为obs地址。 最小长度:1 最大长度:2000 format String 文件格式,支持PDB、SDF、MOL2、SMI,仅数据源为RAW时提供。 最小长度:1 最大长度:6 data String 文件原始数据,仅数据源为RAW时提供。 最小长度:0 最大长度:10000000 表7 BindSiteDto 参数 参数类型 描述 name String 靶点名称,只能设置为target1或者target2。 最小长度:1 最大长度:128 receptor ReceptorDrugFile object 受体文件 bounding_box BoundingBoxDto object 结合口袋,包含口袋中心位置和尺寸大小。 remove_ion Boolean 去除受体中的离子。 缺省值:true remove_water Boolean 去除受体中的水分子。 缺省值:true remove_ligand Boolean 去除受体中的配体分子。 缺省值:true add_hydrogen Boolean 增加氢原子。 缺省值:false 表8 ReceptorDrugFile 参数 参数类型 描述 source String 受体的数据源:外部网络数据(如RCSB在线数据库)、用户私有数据中心、承载租户公共数据(含样例/公共库)。 枚举值: EXTRANET PRIVATE PUBLIC RAW url String 文件URL,当数据源为外部网络数据时为https地址;用户私有数据中心为项目路径、公共数据场景为obs地址。 最小长度:1 最大长度:2000 format String 文件格式,仅支持PDB,仅数据源为RAW时提供。 最小长度:1 最大长度:6 data String 文件原始数据,仅数据源为RAW时提供。 最小长度:0 最大长度:10000000 表9 BoundingBoxDto 参数 参数类型 描述 center Array of floats 口袋中心坐标; x, y, z轴的坐标。 最小值:-9999999 最大值:99999999 数组长度:3 - 3 size Array of floats 口袋尺寸大小; x, y, z轴的大小。 最小值:2 最大值:500 数组长度:3 - 3 padding Float 填充。 最小值:0 最大值:20 表10 WeakConstraintDto 参数 参数类型 描述 id String 自定义模型id,仅弱约束为模型时填写。 最小长度:1 最大长度:128 name String 属性名称。 最小长度:1 最大长度:128 type String 属性约束类型。 枚举值: bool range struct minimize maximize interaction bool Boolean 属性约束类型bool的参数。 range Array of floats 属性约束类型range的参数。 最小值:-9999 最大值:9999 数组长度:2 - 2 struct StructureConstraintParamsDto object 结构约束参数。 quantiles Array of floats 属性约束类型minimize和maximize的参数。 最小值:0.0 最大值:1.0 数组长度:2 - 2 interaction InteractionConstraintDto object 相互作用力约束参数。 表11 StrongConstraintDto 参数 参数类型 描述 id String 自定义模型id,仅强约束为模型时填写。 最小长度:1 最大长度:128 name String 属性名称。 最小长度:1 最大长度:128 type String 属性约束类型。 枚举值: bool range struct interaction bool Boolean 属性约束类型bool的参数。 range Array of floats 属性约束类型range的参数。 最小值:-9999 最大值:9999 数组长度:2 - 2 struct StructureConstraintParamsDto object 结构约束参数。 interaction InteractionConstraintDto object 相互作用力约束参数。 表12 StructureConstraintParamsDto 参数 参数类型 描述 structs Array of strings 子结构SMILES。 最小长度:1 最大长度:120 数组长度:1 - 8 exclusive Boolean 是否排除子结构。 operator String 多个子结构之间的逻辑关系。 枚举值: or and 表13 InteractionConstraintDto 参数 参数类型 描述 interactions Array of Interaction objects 相互作用力列表。 数组长度:1 - 8 exclusive Boolean 是否排除指定的约束作用力。 operator String 多个作用力之间的逻辑关系。 枚举值: or and 表14 Interaction 参数 参数类型 描述 binding_site String 靶点,只支持target1或target2。 最小长度:1 最大长度:128 type String 相互作用力类型:氢键、疏水作用、盐桥、π-π堆积、π-阳离子。 枚举值: hydrogen_bond hydrophobic_action salt_bridge pi_stacking pi_cation amino_acid String 氨基酸。 最小长度:4 最大长度:16 表15 BaseModel 参数 参数类型 描述 id String 基模型id。 缺省值:pangu-drug-model 最小长度:1 最大长度:128 name String 基模型名称。 缺省值:pangu-drug-model 最小长度:1 最大长度:128 表16 BasicDrugModel 参数 参数类型 描述 id String 模型ID。 task_id String 任务ID。 name String 模型名称。 creator String 模型创建者。 type String 模型类型。 value_range ValueRange object 区间上下限,仅回归型存在。 description String 模型描述信息。 表17 ValueRange 参数 参数类型 描述 lower Float 区间下限,仅回归型存在。 upper Float 区间上限,仅回归型存在。 表18 ClusterJobRsp 参数 参数类型 描述 method String 分子聚类方法。 output_dir String 分子聚类输出结果。 status String 作业结果信息。 failed_reasons Array of FailedReasonRecord objects 部分失败原因和数量。 表19 FailedReasonRecord 参数 参数类型 描述 reason String 失败原因。 count Integer 失败数量。
  • URI GET /v1/{project_id}/eihealth-projects/{eihealth_project_id}/drug-jobs/optimization/{job_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,您可以从获取项目ID中获取。 最小长度:1 最大长度:128 eihealth_project_id 是 String 平台项目ID。 最小长度:1 最大长度:128 job_id 是 String 作业id。 最小长度:1 最大长度:128
  • 响应示例 状态码: 200 OK { "jobs" : [ { "id" : "baabcb56-5bb6-11eb-8a0d-fa163e3ddba1", "name" : "demo-job", "labels" : [ "labelA", "labelB" ], "status" : "FINISHED", "type" : "OPTIMIZATION", "create_time" : "2021-01-30T02:34:36Z", "start_time" : "2021-01-30T02:34:37Z", "finish_time" : "2021-01-30T02:53:26Z", "failed_message" : "null", "user_name" : "demo-user-name", "output_dir" : "job-analysis/job-name", "expect_charge_num" : 1, "real_charge_num" : 1 } ], "count" : 1 }
  • URI GET /v1/{project_id}/eihealth-projects/{eihealth_project_id}/drug-jobs 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,您可以从获取项目ID中获取。 最小长度:1 最大长度:128 eihealth_project_id 是 String 平台项目ID。 最小长度:1 最大长度:128 表2 Query参数 参数 是否必选 参数类型 描述 limit 否 Integer 限制量,单次查询总量,必须由数字组成,默认为100,取值范围[1,1000]。 最小值:1 最大值:1000 缺省值:100 offset 否 Integer 偏移量,查询起始偏移,必须由数字组成,默认为0,取值范围[0,100000000]。 最小值:0 最大值:100000000 缺省值:0 sort_dir 否 String 排序规则 目前默认时间降序。 缺省值:DESC sort_key 否 String 排序规则 目前默认时间降序,支持根据create_time|finish_time|running_time|total_time排序。 job_name 否 String 作业名称。 最小长度:1 最大长度:128 labels 否 Array 标签列表。 最小长度:1 最大长度:32 数组长度:0 - 5 status_list 否 Array 作业运行状态列表, 支持WAITING|RUNNING|FINISHED|FAILED|CANCELLED。 数组长度:0 - 10 type_list 否 Array 作业类型列表, 支持DOCKING|OPTIMIZATION|SYNTHESIS|FEP|POCKET_DETECTION|ADMET|SEARCH|POC_MOL_DESIGN|GENERATION|CPI|TARGET_OPT。 数组长度:0 - 10 create_start_time 否 Long 最小创建时间。 最小值:1000000000000 最大值:9999999999999 create_end_time 否 Long 最大创建时间。 最小值:1000000000000 最大值:9999999999999 finish_start_time 否 Long 最小结束时间。 最小值:1000000000000 最大值:9999999999999 finish_end_time 否 Long 最大结束时间。 最小值:1000000000000 最大值:9999999999999 total_time_range 否 String 总运行时长, 支持ONE_DAY_MORE|ONE_DAY|ONE_HOUR|TWELVE_HOUR。
  • 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 jobs Array of DrugJobDto objects 作业列表。 count Integer 作业总数。 表5 DrugJobDto 参数 参数类型 描述 id String 作业id。 name String 作业的名称,取值范围:[1,63],允许大小写字母、数字、以及特殊字符中划线(-)。 labels Array of strings 作业标签。 status String 作业状态。 type String 作业类型。 create_time String 作业创建时间。 finish_time String 作业结束时间。 start_time String 作业开始时间。 failed_message String 失败提示,当作业执行失败时会返回。 user_name String 创建任务的用户名称。 output_dir String 作业结果输出目录。 expect_charge_num Double 预估功能调用消耗次数。 real_charge_num Double 实际功能调用消耗次数。 progress Progress object 作业进度信息。 表6 Progress 参数 参数类型 描述 overall Float 整体进度。 estimated_finish_time Long 预计结束时间,毫秒。
  • 响应示例 状态码: 200 OK { "workflows" : [ { "id" : "baabcb56-5bb6-11eb-8a0d-fa163e3ddba1", "name" : "demo-workflow", "version" : "1.0.0", "summary" : "summary", "description" : "description", "labels" : [ "labelA", "labelB" ], "create_time" : "2021-01-30T02:34:36Z", "update_time" : "2021-01-30T02:53:26Z", "user_name" : "gwj-test-01" } ], "count" : 1 }
  • 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 workflows Array of WorkflowListDto objects 所查询类型的流程总数 count Integer 当前页的流程列表 表5 WorkflowListDto 参数 参数类型 描述 id String 流程id name String 流程名称 version String 流程版本 summary String 简短描述信息 description String 描述信息 labels Array of strings 流程标签 create_time String 创建流程时间 update_time String 更新流程时间 user_name String 创建用户名称 source_project_name String 源项目名称 source_resource_id String 源资源id
  • URI GET /v1/{project_id}/eihealth-projects/{eihealth_project_id}/workflows 表1 路径参数 参数 是否必选 参数类型 描述 eihealth_project_id 是 String 平台项目ID,您可以在平台单击所需的项目名称,进入项目设置页面查看。 最小长度:1 最大长度:128 project_id 是 String 华为云项目ID,您可以从获取项目ID中获取。 最小长度:1 最大长度:128 表2 Query参数 参数 是否必选 参数类型 描述 name 否 String 流程名称 最小长度:1 最大长度:56 version 否 String 流程版本 最小长度:1 最大长度:24
  • 请求示例 创建模型,模型名称为model_name,类型为二分型,上传项目桶中file/test.csv的模型数据,打开共享开关。 https://{endpoint}/v1/{project_id}/drug-models { "name" : "model_name", "type" : "binary", "description" : "simple model", "file" : { "url" : "project:/file/test.csv", "source" : "private" }, "shareable" : true }
  • 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 用户Token。Token认证就是在调用API的时候将Token加到请求消息头,从而通过身份认证,获得操作API的权限,获取Token接口响应消息头中X-Subject-Token的值即为Token。 最小长度:1 最大长度:32768 表3 请求Body参数 参数 是否必选 参数类型 描述 name 是 String 模型名称,取值范围:[5,32],允许大小写字母、数字、下划线(_)、中划线(-)和空格,只能以字母开头。 最小长度:5 最大长度:32 description 否 String 模型描述信息。 最小长度:0 最大长度:1024 type 是 String 模型类型。 枚举值: binary numerical file 是 ModelFile object 模型数据来源。 shareable 否 Boolean 是否打开组织共享。 缺省值:false base_model_id 否 String 基模型id。 缺省值:pangu-drug-model 最小长度:1 最大长度:128 表4 ModelFile 参数 是否必选 参数类型 描述 source 是 String 模型数据文件来源。 枚举值: public private url 是 String 文件URL,用户私有数据中心为项目路径、公共数据场景为obs地址。 最小长度:1 最大长度:2000 eihealth_project_id 否 String 模型文件所在项目id,仅文件为数据中心时填写。 最小长度:1 最大长度:128
  • URI DELETE /v1/{project_id}/eihealth-projects/{eihealth_project_id}/workflows/{workflow_id} 表1 路径参数 参数 是否必选 参数类型 描述 eihealth_project_id 是 String 平台项目ID,您可以在平台单击所需的项目名称,进入项目设置页面查看。 最小长度:1 最大长度:128 project_id 是 String 华为云项目ID,您可以从获取项目ID中获取。 最小长度:1 最大长度:128 workflow_id 是 String 流程id 最小长度:1 最大长度:128
  • 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 quotas Array of QuotaRsp objects 配额信息列表 count Integer 配额列表个数 表4 QuotaRsp 参数 参数类型 描述 name String 配额项名称,支持USER,PROJECT,USER_PROJECT,STORAGE,PROJECT_APP,PROJECT_NOTEBOOK,PROJECT_WORKFLOW,PROJECT_IMAGE total Integer 配额 unit String 配额项单位 usage Integer 配额使用量
  • 基本概念 账号 用户注册华为云时的账号,账号对其所拥有的资源及云服务具有完全的访问权限,可以重置用户密码、分配用户权限等。由于账号是付费主体,为了确保账号安全,建议您不要直接使用账号进行日常管理工作,而是创建用户并使用创建的用户进行日常管理工作。 用户 由账号在 IAM 中创建的用户,是云服务的使用人员,具有身份凭证(密码和访问密钥)。 区域(Region) 从地理位置和网络时延维度划分,同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。Region分为通用Region和专属Region,通用Region指面向公共租户提供通用云服务的Region;专属Region指只承载同一类业务或只面向特定租户提供业务服务的专用Region。 可用区(AZ,Availability Zone) 一个AZ是一个或多个物理数据中心的集合,有独立的风火水电,AZ内逻辑上再将计算、网络、存储等资源划分成多个集群。一个Region中的多个AZ间通过高速光纤相连,以满足用户跨AZ构建高可用性系统的需求。 项目 华为云的区域默认对应一个项目,这个项目由系统预置,用来隔离物理区域间的资源(计算资源、存储资源和网络资源),以默认项目为单位进行授权,用户可以访问您账号中该区域的所有资源。如果您希望进行更加精细的权限控制,可以在区域默认的项目中创建子项目,并在子项目中购买资源,然后以子项目为单位进行授权,使得用户仅能访问特定子项目中资源,使得资源的权限控制更加精确。 图1 项目隔离模型 父主题: 使用前必读
  • URI POST /v1/{project_id}/eihealth-projects/{eihealth_project_id}/workflows 表1 路径参数 参数 是否必选 参数类型 描述 eihealth_project_id 是 String 平台项目ID,您可以在平台单击所需的项目名称,进入项目设置页面查看。 最小长度:1 最大长度:128 project_id 是 String 华为云项目ID,您可以从获取项目ID中获取。 最小长度:1 最大长度:128
  • 请求示例 创建流程,流程的名称为demo-workflow,版本为1.0.0。 https://eihealth.cn-north-4.myhuaweicloud.com/v1/{project_id}/eihealth-projects/{eihealth_project_id}/workflows { "name" : "demo-workflow", "version" : "1.0.0", "summary" : "summary", "description" : "description", "labels" : [ "labelA", "labelB" ], "timeout" : 1440, "output_dir" : "/workflow", "tasks" : [ { "task_name" : "app1-1", "app_id" : "baabcb56-5bb6-11eb-8a0d-fa163e3ddba1", "display_name" : "步骤1", "output_dir" : "/task", "resources" : { "cpu_type" : "X86", "cpu" : "1C", "memory" : "1G", "gpu_type" : "GPU", "gpu" : 0 }, "location" : { "x" : 100, "y" : 100 }, "inputs" : [ { "name" : "dir-parameter", "values" : [ "/test" ] } ] } ] }
  • 提交训练作业常见问题 报错信息:Exception: You have attempted to create more buckets than allowed 原因分析:由于桶的数量多于限额,无法自动创建。 解决方法:用户可以删除一个桶,或者直接指定一个已存在的桶(修改变量obs_bucket的值)。 报错信息:"errorMessage":"The number of namespaces exceeds the upper limit"或"namespace is invalid" 原因分析:SWR组织数限额,SWR组织默认最多只能创建5个组织。 解决方法:用户可以删除一个SWR组织,或者直接指定一个已存在的SWR组织(修改变量image_organization的值)。 报错信息:standard_init_linux.go:224: exec user process caused "exet format error" 原因分析:可能由于训练规格错误导致训练作业卡死。 解决方法:请参考说明查询资源规格。 报错信息:报错镜像失败,报错:401,'Unauthorized',b'{errors":[{"errorCode":"SVCSTG.SWR.4010000",errorMessage":"Authenticate Error",……}] 原因分析:远程连接Notebook时需要输入鉴权信息。 解决方法:传入AK,SK信息。 1 2 3 4 5 6 # 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全; # 本示例以ak和sk保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。 __AK = os.environ["HUAWEICLOUD_SDK_AK"] __SK = os.environ["HUAWEICLOUD_SDK_SK"] # 如果进行了加密还需要进行解密操作 session = Session(access_key=__AK,secret_key=__SK, project_id='***', region_name='***')
  • 步骤5:使用SDK提交训练作业 本地调测完成后可以提交训练作业。因为数据在Notebook中,设置InputData中“is_local_source”的参数为“True”,会自动将本地数据同步上传到OBS中。 步骤如下: 在“/home/ma-user/work/models/official/cv/resnet/”下创建train_notebook.py, 复制代码至train_notebook.py, 运行train_notebook.py,进行训练作业提交。 # train_notebook.py # 导入ModelArts SDK的依赖,并初始化Session,此处的ak、sk、project_id、region_name请替换成用户自己的信息 from modelarts.train_params import TrainingFiles from modelarts.train_params import OutputData from modelarts.train_params import InputData from modelarts.estimatorV2 import Estimator from modelarts.session import Session # 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全; # 本示例以ak和sk保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。 __AK = os.environ["HUAWEICLOUD_SDK_AK"] __SK = os.environ["HUAWEICLOUD_SDK_SK"] # 如果进行了加密还需要进行解密操作 session = Session(access_key=__AK,secret_key=__SK, project_id='***', region_name='***') # 样例中为了方便默认创建一个OBS桶,推荐将调测所需要传输的文件统一放到`${default_bucket}/intermidiate`目录下,也可以按照注释代码自行指定 obs_bucket = session.obs.get_default_bucket() print("Default bucket name: ", obs_bucket) default_obs_dir = f"{obs_bucket}/intermidiate" #default_obs_dir = "obs://your-bucket-name/folder-name" # 本地的工程代码文件夹路径 code_dir_local = "/home/ma-user/work/models/official/cv/resnet/" #@param {type:"string"} # 代码的启动文件名称 boot_file = "train.py" #@param {type:"string"} train_file = TrainingFiles(code_dir=code_dir_local, boot_file=boot_file) # 本地数据集路径 local_data_path = "/home/ma-user/work/models/dataset/flower_photos" #@param {type:"string"} # 模型输出保存路径 output_local = "/home/ma-user/work/models/official/cv/resnet/output" #@param {type:"string"} # 模拟训练过程中模型输出回传至指定OBS的路径,需要以"/"结尾 obs_output_path = f"{default_obs_dir}/mindspore_model/output/" # 指定一个obs路径用于存储输出结果 output = [OutputData(local_path=output_local, obs_path=obs_output_path, name="output")] # 模拟训练过程中模训练日志回传至指定OBS的路径,需要以"/"结尾 log_obs_path = f"{default_obs_dir}/mindspore_model/logs/" # 训练所需的代码路径,代码会自动从本地上传至OBS code_obs_path = f"{default_obs_dir}/mindspore_model/" data_obs_path = f"{default_obs_dir}/dataset/flower_photos/" # sdk会将代码自动上传至OBS,并同步到训练环境 train_file = TrainingFiles(code_dir=code_dir_local, boot_file=boot_file, obs_path=code_obs_path) # 指定OBS中的数据集路径,会自动将local_path数据上传至obs_path,用户可以在代码中通过 --data_url接收这个数据集路径 input_data = InputData(local_path=local_data_path, obs_path=data_obs_path, is_local_source=True, name="data_url") from modelarts.service import SWRManagement image_organization = SWRManagement(session).get_default_namespace() # image_organization = "your-swr-namespace-name" print("Default image_organization:", image_organization) image_name = "mindspore-image-models-image" #@param {type:"string"} image_tag = "1.0.0" #@param {type:"string"} import os ENV_NAME=os.getenv('ENV_NAME') # 启动训练任务:使用user_command(shell命令)方式启动训练任务 # 注意:训练启动默认的工作路径为"/home/ma-user/modelarts/user-job-dir",而代码上传路径为"./resnet/${code_dir}"下 # --enable_modelarts=True 该代码仓已适配ModelArts estimator = Estimator(session=session, training_files=train_file, outputs=output, user_image_url=f"{image_organization}/{image_name}:{image_tag}", # 自定义镜像 swr地址,由镜像仓库组织/镜像名称:镜像tag组成 user_command=f'cd /home/ma-user/modelarts/user-job-dir/ && /home/ma-user/anaconda3/envs/MindSpore/bin/python ./resnet/train.py --net_name=resnet50 --dataset=imagenet2012 --enable_modelarts=True --class_num=5 --config_path=./resnet/config/resnet50_imagenet2012_config.yaml --epoch_size=10 --device_target="Ascend" --enable_modelarts=True', # 执行训练命令 train_instance_type="modelarts.p3.large.public", # 虚拟资源规格,不同region的资源规格可能不同,请参考“Estimator参数说明”表下的说明查询修改 train_instance_count=1, # 节点数,适用于多机分布式训练,默认是1 #pool_id='若指定专属池,替换为页面上查到的poolId',同时修改资源规格为专属池专用的虚拟子规格 log_url=log_obs_path ) # job_name是可选参数,可不填随机生成工作名 job_instance = estimator.fit(inputs=[input_data], job_name="modelarts_training_job_with_sdk_by_command_v01") 表1 Estimator参数说明 参数名称 参数说明 session modelarts session training_files 训练代码的路径和启动文件 user_image_url 自定义镜像swr地址,由镜像仓库组织/镜像名称:镜像tag组成 user_command 执行训练命令 train_instance_type 本地调测'local'或云端资源规格。每个region的资源规格可能是不同的,可以通过下述说明查询对应的资源规格信息。 train_instance_count 节点数 log_url 日志输出路径 job_name 作业名称,不可以重复 train_instance_type表示训练的资源规格,每个region的资源规格可能是不同的。通过如下方法查询资源规格: 公共资源池执行如下命令查询 from modelarts.session import Session from modelarts.estimatorV2 import Estimator from pprint import pprint # 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全; # 本示例以ak和sk保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。 __AK = os.environ["HUAWEICLOUD_SDK_AK"] __SK = os.environ["HUAWEICLOUD_SDK_SK"] # 如果进行了加密还需要进行解密操作 session = Session(access_key=__AK,secret_key=__SK, project_id='***', region_name='***') info = Estimator.get_train_instance_types(session=session) pprint(info) 专属池规格 ModelArts专属资源池统一使用虚拟子规格,不区分GPU和Ascend。资源规格参考表2查询。 表2 专属资源池虚拟规格的说明 train_instance_type 说明 modelarts.pool.visual.xlarge 1卡 modelarts.pool.visual.2xlarge 2卡 modelarts.pool.visual.4xlarge 4卡 modelarts.pool.visual.8xlarge 8卡
  • 训练输出保存结构说明 ModelArts训练作业的模型输出和日志信息会定时同步到指定的OBS中,本示例中模型输出路径和日志输出路径分别为f"{default_obs_dir}/mindspore_model/output/"和f"{default_obs_dir}/mindspore_model/logs/",用户可以在OBS中查看训练输出信息。 本示例中训练输出保存在OBS的目录结构如下所示: ${your_bucket} └── intermidiate ├── dataset │ └── flower_photos │ └── flower_photos.zip └── mindspore_model ├── logs │ └── xxx-xxx-xxx--0.log ├── output │ └── 20220627-105226-resnet50-224 └── mindspore-image-models.zip
  • 加速慢算子的执行速度 首先需要寻找执行速度比较慢的NPU算子列表,Kernel视图包含在NPU上执行的所有算子的信息,主要用于确认高耗时算子。 图7 Kernel视图 推荐基于以下思路尝试优化: 搜索Cast类算子,查看是否Cast类算子最大耗时超过30us或者总耗时占比超过1%,如果超过,需尝试启动混合精度训练,详见此处。 图8 Cast类算子 基于Accelerator Core排序,统计AI_CPU算子,如果有AI_CPU类算子执行时长超过1000us或者AI_CPU类算子总执行时长占比超过10%,可尝试修改代码替换API_CPU算子。 需要注意:PyTorch Adaptor针对部分算子,会基于输入类型下发不同运行硬件的算子,所以除了使用同语义算子替换API_CPU算子外,还可以通过修改输入类型使算子下发到API_CORE上(比如torch.topk在参数为一维list使用API_CPU计算,多维参数则基于AI_CORE Vector计算)。 图9 Accelerator Core排序 如果遇到算子运行期间NPU的计算单元和存储单元使用率都未达到80%(查看aiv_*_ratio和aic_*_ratio是否达到0.8),或者算子的“Block Dim”小于AI Core/Vector Core,可尝试使用AOE算子调优,提高NPU硬件资源利用率。 图10 aiv_*_ratio 针对总耗时最长、平均执行耗时最长以及最大耗时的三种排序的TOP算子,可联系华为工程师获得帮助。 图11 耗时排序
  • 训练profiling工具使用 五板斧操作之后,如果性能仍然不满足要求,便需要通过profiling工具采集性能数据,基于数据分析是哪个环节、哪个算子导致的性能消耗,进而做性能优化。 目前有两种方式采集训练profiling数据:Ascend PyTorch Profiler数据采集与分析和E2E Profiling数据采集与分析。 其中推荐使用Ascend PyTorch Profiler数据采集与分析方法,基于这种用法性能调优更高效,可以全面采集PyTorch训练场景下的性能数据,主要包括PyTorch层算子信息、CANN层算子信息、底层NPU算子信息、以及算子内存占用信息等,可以全方位分析PyTorch训练时的性能状态,有四种视图来展示PyTorch性能数据,其中Trace视图与第二种profiling方法展示同样的信息。第二种采集方式的优势主要在于不需要额外启动tensorboard服务来展示数据,在本地浏览器就能展示性能数据。 训练profiling工具使用说明: 通过键盘上的快捷键(w:放大/s:缩小/a:左移/d:右移)可以很方便地进行查看算子运行信息(tensorboard的Trace View页面和chrome的tracing页面都支持快捷键)。 如果是在docker中运行tensorboard,启动docker容器的时候,需要将tensorboard的端口映射到宿主机的端口,这样才能在浏览器基于宿主机的ip+宿主机的端口访问tensorboard服务;同时启动tensorboard的时候,需要“—bind_all”参数。 docker run -itd -p 12345:6006 my-image bash .... tensorboard --bind_all --logdir result_dir/ 图1 TensorBoard 性能调优是一个不断迭代的过程,每个版本的代码与profiling的对应关系需要提前做好规划,否则随着迭代次数的增多,无法梳理清楚某一版本的代码修改究竟是否带来性能提升或带来多少性能提升。推荐对应关系可以使用git commit来管理。 PyTorch API会调用其他API以及算子,调用关系在Trace View的Python cpu区域可以展示出来,如下图所示,tensor对象的*或者mul操作(对应图中的aten::mul)会调用aten::item和Mul算子,以此类推。其中如果某一个算子调用了Enqueue算子,代表该算子将会被下发到NPU中执行。鼠标点中某个算子/API,可查看对应详情,包括调用堆栈。 图2 调用关系 父主题: PyTorch迁移性能调优
  • 优化算子下发 当发现NPU上有大量相邻算子之间有时间间隙出现时,代表算子下发的速度太慢导致NPU空等,NPU算力没有充分发挥,如下图所示。 图1 算子之间的时间间隙 优化该场景有三个思路: 加速算子下发。常用的优化方法有进程绑核(详见性能调优五板斧)、启用机器的cpu高性能模式、使用高性能磁盘、多级多卡训练场景下通信优化等。 融合多个算子的逻辑为单算子,从而减少算子下发的数量,请参见NPU融合算子API和亲和优化器。常用的优化方法为使用Ascend自带的优化后的融合算子、算子二进制优化(详见性能调优五板斧)或者开发者自己开发自定义融合算子。此外,PyTorch同语义代码的执行时间有差异,可基于对同语义代码进行Profiling分析,使用性能好的实现,比如“tensorA[:, None, :, :]”与“tensorA.unsqueeze(1)”为同语义,但是前者会调用3次“aten::slice”接口加一次“aten::unsqueeze”接口,后者只调用一次“aten::unsqueeze”接口,所以应该选择“tensorA.unsqueeze(1)”。 让NPU上运行的算子处理更多的数据,算子执行时间变长,单算子下发时间几乎不变,掩盖了算子下发慢的问题。常用的方法是尽可能地增大batch size,让每一个step的NPU计算量增加。 图2 优化思路 父主题: PyTorch迁移性能调优
  • 相关操作 关闭TensorBoard方式如下: 方式1:单击下图所示的,进入TensorBoard实例管理界面,该界面记录了所有启动的TensorBoard实例,单击对应实例后面的SHUT DOWN即可停止该实例。 图8 单击SHUT DOWN停该实例 方式2:在开发环境JupyterLab中的“.ipynb”文件窗口中输入命令,关闭TensorBoard。PID在启动界面有提示或者通过ps -ef | grep tensorboard查看。 !kill PID 方式3:单击下方红框中的按钮可以关闭所有启动的TensorBoard实例。 图9 关闭所有启动的TensorBoard实例 方式4(不推荐):直接在JupyterLab中上关闭TensorBoard窗口,此方式仅关闭可视化窗口,并未关闭后台。
  • 创建rf_admin_trust委托(可选) 进入华为云官网,打开控制台管理界面,鼠标移动至个人账号处,打开“ 统一身份认证 ”菜单。 图1 控制台管理界面 图2 统一身份认证菜单 进入“委托”菜单,搜索“rf_admin_trust”委托。 图3 委托列表 如果委托存在,则不用执行接下来的创建委托的步骤 如果委托不存在时执行接下来的步骤创建委托 单击步骤2界面中的“创建委托”按钮,在委托名称中输入“rf_admin_trust”,委托类型选择“云服务”,选择“ RFS ”,单击“下一步”。 图4 创建委托 在搜索框中输入“Tenant Administrator”权限,并勾选搜索结果。 图5 选择策略 选择“所有资源”,并单击下一步完成配置。 图6 设置授权范围 “委托”列表中出现“rf_admin_trust”委托则创建成功。 图7 委托列表
共100000条