华为云用户手册

  • 示例代码 在ModelArts Notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 1 2 3 from modelarts.session import Session session = Session() session.obs.upload_file(src_local_file='/home/ma-user/file1.txt', dst_obs_dir='obs://bucket-name/dir1/')
  • 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式1:根据部署在线服务生成的服务对象删除服务 1 2 3 4 5 6 from modelarts.session import Session from modelarts.model import Predictor session = Session() predictor_instance = Predictor(session, service_id="your_service_id") predictor_instance.delete_service() 方式2:根据查询服务对象列表返回的服务对象删除服务 1 2 3 4 5 6 7 from modelarts.session import Session from modelarts.model import Predictor session = Session() predictor_object_list = Predictor.get_service_object_list(session) predictor_instance = predictor_object_list[0] predictor_instance.delete_service()
  • 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式1:根据部署在线服务生成的服务对象进行查询服务日志 1 2 3 4 5 6 7 from modelarts.session import Session from modelarts.model import Predictor session = Session() predictor_instance = Predictor(session, service_id="your_service_id") predictor_log = predictor_instance.get_service_logs() print(predictor_log) 方式2:根据查询服务对象列表返回的服务对象进行查询服务日志 1 2 3 4 5 6 7 8 from modelarts.session import Session from modelarts.model import Predictor session = Session() predictor_object_list = Predictor.get_service_object_list(session) predictor_instance = predictor_object_list[0] predictor_log = predictor_instance.get_service_logs() print(predictor_log)
  • 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式1:根据部署在线服务生成的服务对象进行查询服务监控 1 2 3 4 5 6 7 from modelarts.session import Session from modelarts.model import Predictor session = Session() predictor_instance = Predictor(session, service_id="your_service_id") predictor_monitor = predictor_instance.get_service_monitor() print(predictor_monitor) 方式2:根据查询服务对象列表返回的服务对象进行查询服务监控 1 2 3 4 5 6 7 8 from modelarts.session import Session from modelarts.model import Predictor session = Session() predictor_object_list = Predictor.get_service_object_list(session) predictor_instance = predictor_object_list[0] predictor_monitor = predictor_instance.get_service_monitor() print(predictor_monitor)
  • 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 场景1:查询当前用户所有服务对象 1 2 3 4 5 6 from modelarts.session import Session from modelarts.model import Predictor session = Session() predictor_list_object_resp = Predictor.get_service_object_list(session) print(predictor_list_object_resp) 场景2:按照检索条件查询当前用户服务对象 1 2 3 4 5 6 from modelarts.session import Session from modelarts.model import Predictor session = Session() predictor_object_list = Predictor.get_service_object_list(session, service_name="digit", order="asc", offset="0", infer_type="real-time") print(predictor_object_list)
  • 参数说明 查询服务列表,返回list,list大小等于当前用户所有已经部署的服务个数,list中每个元素都是Predictor对象,对象属性同本章初始化服务。 查询服务列表返回说明:service_list_resp = [service_instance1, service_instance2, service_instance3 ...],列表中元素“service_instance”对象即为服务管理章节描述的可调用服务接口。 支持按照检索参数查询服务列表,返回满足检索条件的服务list,检索参数如表1所示。 在查询列表时,返回list的同时,默认会打印模型列表的详细信息,如表2和表3所示。 表1 查询检索参数说明 参数 是否必选 参数类型 描述 session 是 Object 会话对象,初始化方法见Session鉴权。 is_show 否 Boolean 是否打印出服务对象信息,默认为“True”。 service_id 否 String 服务ID,默认不过滤服务ID。 service_name 否 String 服务名称,默认不过滤服务名。 infer_type 否 String 推理方式,取值为:real-time/batch/edge,默认不过滤推理方式。 offset 否 Integer 分页列表的起始页,默认为“0”。 limit 否 Integer 指定每一页返回的最大条目数,默认为“1000”。 sort_by 否 String 指定排序字段,可选“publish_at”、“service_name”,默认可选“publish_at”。 order 否 String 排序方式,可选“asc”或“desc”,代表递增排序及递减排序,默认为:“desc”。 model_id 否 String 模型ID,默认不过滤模型ID。
  • 参数说明 表1 查询检索参数说明 参数 是否必选 参数类型 描述 session 是 Object 会话对象,初始化方法见Session鉴权。 service_id 否 String 服务ID,默认不过滤服务ID。 service_name 否 String 服务名称,默认不过滤服务名。 infer_type 否 String 推理方式,取值为:real-time/batch/edge,默认不过滤推理方式。 offset 否 Integer 分页列表的起始页,默认为:“0”。 limit 否 Integer 指定每一页返回的最大条目数,默认为:“1000”。 service_status 否 String 服务状态,默认不过滤服务状态。可根据服务状态查询,取值如下。 running:运行中,服务正常运行,正在计费。 deploying:部署中,服务正在部署,调度资源部署等。 concerning:告警,后端实例异常,可能正在计费。例如多实例的情况下,有的实例正常,有的实例异常。正常的实例会产生费用,此时服务状态是concerning。 failed:失败,服务部署失败,失败原因可以查看事件和日志标签。 stopped:停止。 finished:只有批量服务会有这个状态,表示运行完成。 sort_by 否 String 指定排序字段,可选“publish_at”、“service_name”,默认可选“publish_at”。 order 否 String 排序方式,可选“asc”或“desc”,代表递增排序及递减排序,默认为:“desc”。 model_id 否 String 模型ID,默认不过滤模型ID。
  • 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 场景1:查询当前用户所有服务 1 2 3 4 5 6 from modelarts.session import Session from modelarts.model import Predictor session = Session() predictor_list = Predictor.get_service_list(session) print(predictor_list) 场景2:按照检索条件查询当前用户服务 1 2 3 4 5 6 from modelarts.session import Session from modelarts.model import Predictor session = Session() predictor_list = Predictor.get_service_list(session, service_name="digit", order="asc", offset="0", infer_type="real-time") print(predictor_list)
  • 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 场景:部署在线服务Predictor的推理预测 1 2 3 4 5 6 7 from modelarts.session import Session from modelarts.model import Predictor session = Session() predictor_instance = Predictor(session, service_id="your_service_id") predict_result = predictor_instance.predict(data=data_path, data_type=data_type) print(predict_result)
  • 参数说明 表1 参数说明 参数 是否必选 参数类型 描述 data_type 是 String 当前支持三种格式:files、images、json, 即文本、图片、json格式。 data 是 String 针对files、images类型的数据, 该参数为其本地路径,如 : data = "/home/ma-user/work/test.jpg" 针对json类型的数据, 该参数可以是其本地路径,如: data = "/home/ma-user/work/test.json" 同时也可以为“dict”类型的变量 ,如: data = { "is_training": "False", "observations": [[1,2,3,4]], "default_policy/eps:0" : "0.0" } path 否 String 服务内的推理路径,默认为"/"。
  • 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式1:根据部署在线服务生成的服务对象进行服务详情查询 1 2 3 4 5 6 7 from modelarts.session import Session from modelarts.model import Predictor session = Session() predictor_instance = Predictor(session, service_id="your_service_id") predictor_info = predictor_instance.get_service_info() print(predictor_info) 方式2:根据查询服务对象列表返回的服务对象进行服务详情查询 1 2 3 4 5 6 7 8 from modelarts.session import Session from modelarts.model import Predictor session = Session() predictor_object_list = Predictor.get_service_object_list(session) predictor_instance = predictor_object_list[0] predictor_info = predictor_instance.get_service_info() print(predictor_info)
  • 服务管理概述 服务管理,包括将已创建成功的模型部署为在线服务或本地服务。可以实现在线预测、本地预测、服务详情查询、查看服务日志等功能。 这里的在线服务包括“predictor”和“transformer”两类,都包括下文描述的功能,本章节以“predictor”服务为例进行说明。 本章节的示例代码都是在ModelArts Notebook中实现的,如果在其它开发环境使用,需要进行Session鉴权,请参见Session鉴权。 父主题: 服务管理
  • 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式1:根据导入模型或模型调试生成的模型对象进行模型对象删除 1 2 3 4 5 6 from modelarts.session import Session from modelarts.model import Model session = Session() model_instance = Model(session, model_id="your_model_id") model_instance.delete_model() 方式2:根据查询模型对象列表返回的模型对象进行模型删除 1 2 3 4 5 6 7 from modelarts.session import Session from modelarts.model import Model session = Session() model_object_list = Model.get_model_object_list(session) model_instance = model_object_list[0] model_instance.delete_model()
  • 参数说明 表1 get_model_info返回参数说明 参数 参数类型 描述 model_id String 模型ID。 model_name String 模型名称。 model_version String 模型版本。 tenant String 租户。 project String 项目。 owner String 用户。 create_at Long 模型创建时间,距'1970.1.1 0:0:0 UTC'的毫秒数。 source_location String 模型所在的OBS路径。 source_job_id String 来源训练作业的ID。 source_job_version String 来源训练作业的版本。 source_type String 模型来源的类型。 当模型为自动学习部署过来时,取值为“auto”。 当模型是用户通过训练作业或OBS模型文件部署时,此值为空。 model_type String 模型类型,取值为:TensorFlow/MXNet/Spark_MLlib/Scikit_Learn/XGBoost/MindSpore/Image/PyTorch。 model_size Long 模型大小,单位为字节数。 model_status String 模型状态,取值为:publishing/published/failed。 description String 模型描述信息。 execution_code String 执行代码存放的OBS地址,名称固定为“customize_service.py”。 schema_doc String 模型schema文档的下载地址。 image_address String 模型的执行镜像地址,镜像未构建之前(即当前模型从未发布成服务),显示为空。 input_params params结构数组 模型的输入参数集,默认为空 output_params params结构数组 模型的输出参数集,默认为空 dependencies dependency结构数组 运行代码及模型需安装的包。 model_metrics String 模型评测参数,仅当source_job_id和source_job_version有值且对应的训练作业有评测结果时会返回该结果。 apis String 模型所有的apis入参出参信息。 表2 params结构 参数 参数类型 描述 url String api代表的url路径。 param_name String 参数名,不超过64个字符。 param_type String 参数类型,取值为:int/string/float/timestamp/date/file。 min Number 当param_type为int或float时创建模型时,有配置min则返回,默认为空。 max Number 当param_type为int或float时创建模型时,有配置max则返回,默认为空。 param_desc String 参数描述,不超过100个字符,默认为空。 表3 dependency结构 参数 参数类型 描述 installer String 安装器名称。 packages package结构数组 依赖包集合。 表4 package结构 参数 参数类型 描述 package_name String 依赖包名称。 package_version String 依赖包版本。 restraint String 版本过滤条件,取值为: EXACT:等于给定版本 ATLEAST:不小于给定版本 ATMOST:不大于给定版本 表5 metric参数说明 参数 是否必选 参数类型 描述 f1 是 Double 平均数。 recall 是 Double 召回率。 precision 是 Double 精确率。 accuracy 是 Double 准确率。
  • 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式1:根据导入模型生成的模型对象进行模型详情查询 1 2 3 4 5 6 7 from modelarts.session import Session from modelarts.model import Model session = Session() model_instance = Model(session, model_id="your_model_id") model_info = model_instance.get_model_info() print(model_info) 方式2:根据查询模型对象列表返回的模型对象进行模型详情查询 1 2 3 4 5 6 7 8 from modelarts.session import Session from modelarts.model import Model session = Session() model_object_list = Model.get_model_object_list(session) model_instance = model_object_list[0] model_info = model_instance.get_model_info() print(model_info)
  • 参数说明 查询模型列表,返回list,list大小等于当前用户所有已经部署的模型个数, list中每个元素都是Model对象,对象属性和查询模型详情相同。查询模型列表返回说明: model_list = [model_instance1, model_instance2, model_instance3 ...],列表中元素model_instance对象即为本章节描述的模型管理,可调用模型接口。 支持按照检索参数查询模型列表,返回满足检索条件的模型list,检索参数如表1所示。 在查询列表时,返回list的同时,会打印模型列表的详细信息,如表2和表3所示。 当前支持最大获取150个模型对象。 表1 查询检索参数说明 参数 是否必选 参数类型 说明 model_name 否 String 模型名称,可支持模糊匹配。 model_version 否 String 模型版本。 model_status 否 String 模型状态,可根据模型的“publishing”、“published”、“failed”三种状态执行查询。 description 否 String 描述信息,可支持模糊匹配。 offset 否 Integer 指定要查询页的索引,默认为“0”。 limit 否 Integer 指定每一页返回的最大条目数,默认为“280”。 sort_by 否 String 指定排序字段,可选“create_at”、“model_version”、“model_size”,默认是可选“create_at”。 order 否 String 排序方式,可选“asc”或“desc”,代表递增排序及递减排序,默认是“desc”。 workspace_id 否 String 工作空间ID,默认为“0”。 表2 get_model_list打印参数说明 参数 参数类型 描述 total_count Integer 不分页的情况下,符合查询条件的总模型数量。 count Integer 模型数量。 models model结构数组 模型元数据信息。
  • 示例代码 在ModelArts Notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 场景1:查询当前用户所有模型对象 1 2 3 4 5 6 from modelarts.session import Session from modelarts.model import Model session = Session() model_object_list = Model.get_model_object_list(session) print(model_object_list) 场景2:按照检索条件查询当前用户模型对象 1 2 3 4 5 6 from modelarts.session import Session from modelarts.model import Model session = Session() model_object_list = Model.get_model_object_list(session, model_status="published", model_name="digit", order="desc") print(model_object_list)
  • 示例代码 在ModelArts Notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 场景1:查询当前用户所有模型 1 2 3 4 5 6 from modelarts.session import Session from modelarts.model import Model session = Session() model_list = Model.get_model_list(session) print(model_list) 场景2:按照检索条件查询当前用户模型 1 2 3 4 5 6 from modelarts.session import Session from modelarts.model import Model session = Session() model_list = Model.get_model_list(session, model_status="published", model_name="digit", order="desc") print(model_list)
  • 参数说明 表1 查询检索参数说明 参数 是否必选 参数类型 说明 model_name 否 String 模型名称,可支持模糊匹配。 model_version 否 String 模型版本。 model_status 否 String 模型状态,可根据模型的“publishing”、“published”、“failed”三种状态执行查询。 description 否 String 描述信息,可支持模糊匹配。 offset 否 Integer 指定要查询页的索引,默认为“0”。 limit 否 Integer 指定每一页返回的最大条目数,默认为“280”。 sort_by 否 String 指定排序字段,可选“create_at”、“model_version”、“model_size”,默认是可选“create_at”。 order 否 String 排序方式,可选“asc”或“desc”,代表递增排序及递减排序,默认是“desc”。 workspace_id 否 String 工作空间ID,默认为“0”。 表2 get_model_list打印参数说明 参数 参数类型 描述 total_count Integer 不分页的情况下,符合查询条件的总模型数量。 count Integer 模型数量。 models model结构数组 模型元数据信息。
  • 示例代码 账号与用户的概念介绍,请参见 IAM 基本概念。获取您的账号、用户名等信息,请参见获取用户名、用户ID、项目名称、项目ID。 使用账号认证 “username”填写您的账号名。 1 2 from modelarts.session import Session session = Session(username='***', password='***', region_name='***', project_id='***') 如果您的华为云账号已经升级为华为账号,则账号认证方式将不可用,请创建一个IAM用户,使用IAM用户认证。 使用IAM用户认证 “account”填写您的账号名,“username”填写您的IAM用户名。 1 2 from modelarts.session import Session session = Session(account='***', username='***', password='***', region_name='***', project_id='***')
  • 用户名密码认证模式 本地安装完成ModelArts SDK后,可通过用户名密码认证模式进行Session鉴权。示例代码如下: 使用账号认证 “username”填写您的账号名。 1 2 3 4 5 6 7 from modelarts.session import Session # 认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全; # 本示例以password保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_PASSWORD。 __PASSWORD = os.environ["HUAWEICLOUD_SDK_PASSWORD"] # 如果进行了加密还需要进行解密操作 session = Session(username='***', password=__PASSWORD, region_name='***', project_id='***') 使用IAM用户认证 “account”填写您的账号名,“username”填写您的IAM用户名。 1 2 3 4 5 6 7 from modelarts.session import Session # 认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全; # 本示例以password保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_PASSWORD。 __PASSWORD = os.environ["HUAWEICLOUD_SDK_PASSWORD"] # 如果进行了加密还需要进行解密操作 session = Session(account='***', username='***', password=__PASSWORD, region_name='***', project_id='***') 账号与用户的概念介绍,请参见IAM基本概念。获取您的账号、用户名等信息,请参见获取用户名、用户ID、项目名称、项目ID。 如果您的华为云账号已经升级为华为账号,则账号认证方式将不可用,请创建一个IAM用户,使用IAM用户认证。
  • Session鉴权概述 Session模块的主要作用是实现与公有云资源的鉴权,并初始化ModelArts SDK Client、OBS Client。当成功建立Session后,您可以直接调用ModelArts的SDK接口。 ModelArts开发环境Notebook不需要Session鉴权,可以直接使用。示例代码如下: 1 2 from modelarts.session import Session session = Session() 本地PC使用ModelArts SDK时,需要进行Session鉴权。鉴权方式可参考如下认证方式,选择其中一种方式进行认证即可。 用户名密码认证模式: 支持OBS管理、数据管理、训练管理、模型管理、服务管理的鉴权。 用户AK-SK认证模式: 支持OBS管理、数据管理、训练管理、模型管理、服务管理的鉴权。
  • 本地安装ModelArts SDK步骤 在本地安装ModelArts SDK,具体的配置步骤如下: 步骤一:下载ModelArts SDK 步骤二:配置运行环境 步骤三:安装ModelArts SDK ModelArts SDK支持安装在Windows和Linux操作系统中。 如果在Windows上安装ModelArts SDK时出现报错,可参见FAQ:安装ModelArts SDK报错处理报错。
  • 文档导读 本文档指导您如何安装和配置开发环境、如何通过调用ModelArts SDK提供的接口函数进行二次开发。 章节 内容 SDK简介 简要介绍ModelArts SDK的概念。 快速开始 介绍如何使用ModelArts SDK进行二次开发。 (可选)本地服务器安装ModelArts SDK 介绍如何在本地安装ModelArts SDK。 (可选)Session鉴权 Session模块的主要作用是实现与公有云资源的鉴权,并初始化ModelArts SDK Client、OBS Client。 OBS管理概述 ModelArts SDK支持对OBS的SDK接口进行调用,包括创建OBS桶,上传/下载文件和文件夹,删除OBS对象和桶。 ModelArts SDK具体操作管理请参见如下章节: 数据管理 训练管理 模型管理 服务管理 介绍使用ModelArts SDK进行的常用操作。
  • 使用SDK调测多机分布式训练作业 代码中涉及到的OBS路径,请用户替换为自己的实际OBS路径。 代码是以PyTorch为例编写的,不同的AI框架之间,整体流程是完全相同的,仅需修改7和11中的 framework_type参数值即可,例如:MindSpore框架,此处framework_type=Ascend-Powered-Engine。 Session初始化,与使用SDK调测单机训练作业中的1相同。 准备训练数据,与使用SDK调测单机训练作业中的2相同,唯一的不同在于obs_path参数是必选的。 准备训练脚本。 from modelarts.train_params import TrainingFiles code_dir = os.path.join(base_local_path, "train/") # 这里提前将训练脚本放在了obs中,实际上训练脚本可以是任何来源,只要能够放到Notebook里边就行 session.obs.download_file(os.path.join(base_bucket_path, "train/test-pytorch.py"), code_dir) training_file = TrainingFiles(code_dir=code_dir, boot_file="test-pytorch.py", obs_path=base_bucket_path + 'train/') 参数解释: code_dir:必选参数,训练脚本所在的目录。在本地调试的情况下,必须是notebook目录,不能是OBS目录。 boot_file:必选参数,训练启动文件,在code_dir目录下。 obs_path:在多机分布式调测时必选参数,一个OBS目录,SDK会将notebook目录code_dir打包上传到obs_path中。 准备训练输出,与单机训练作业调试4相同。 查看训练支持的AI框架,与单机训练作业调试5相同。 保存当前Notebook为新镜像,与单机训练作业调试9相同。 Estimator初始化。 from modelarts.estimatorV2 import Estimator parameters = [] parameters.append({"name": "data_url", "value": data_local}) parameters.append({"name": "output_dir", "value": os.path.join(base_local_path, "output/")}) parameters.append({"name": "epoc_num", "value": 2}) # 启动脚本以parser.add_argument('--dist', action='store_true')的形式来接收该布尔类型的参数,如果要传入True,则以本行代码的形式传递; parameters.append({"name": "dist"}) estimator = Estimator(session=session, training_files=training_file, outputs=[output], parameters=parameters, framework_type='PyTorch', train_instance_type='local', train_instance_count=2, script_interpreter="/home/ma-user/anaconda3/envs/PyTorch-1.4/bin/python", log_url=base_bucket_path + 'log/', job_description='This is a image net train job') 参数解释: session:必选参数,1中初始化的参数。 training_files:必选参数,3中初始化的训练文件。 outputs:可选参数,这里传入的是一个list,每个元素都是步骤4中初始化的训练输出。 parameters:可选参数,一个list,每个元素都是一个字典,包含"name"和"value"两个字段,以"–name=value"的形式传递给训练启动文件。value支持字符串,整数,布尔等类型。对于布尔类型,建议用户在训练脚本中使用action='store_true'的形式来解析。 framework_type:必选参数,训练作业使用的AI框架类型,可参考步骤5的返回结果。 train_instance_type:必选参数,训练实例类型,这里指定’local’即为本地训练。 train_instance_count:必选参数,训练使用的worker个数,分布式调测时为2,训练开始时SDK还会再创建一个Notebook,与当前的Notebook组成一个2节点的分布式调试环境。 script_interpreter:可选参数,指定使用哪个python环境来执行训练任务,如果未指定,会默认使用当前的kernel。 log_url:可选参数,一个OBS地址,本地训练过程中,SDK会自动将训练的日志上传到该位置;但是如果训练任务运行在Ascend上,则是必选参数。 job_description:可选参数,训练任务的描述。 开始训练。 estimator.fit(inputs=[input_data], job_name="cifar10-dis") 参数解释: inputs:可选参数,一个list,每个元素都是步骤2中生成的实例; job_name:可选参数,训练任务名,便于区分和记忆。 本地分布式训练任务开始后,SDK会依次帮助用户完成以下流程: 将训练脚本打包成zip文件,上传到3中指定的obs_path中。 如果训练数据保存在Notebook中,则将其打包成zip文件并上传到指定的obs_path中。 创建一个附属Notebook,与当前使用的Notebook组成分布式训练的两个worker。 初始化训练作业,将数据下载到local_path中。 执行训练任务,用户的代码需要将训练输出保存在4指定的local_path中。 将训练任务得到的输出上传到4指定的obs_path中,日志上传到7指定的log_url中。 多次调试,与单机调测时8作用相同。 查询训练支持的工作节点类型,与单机调测时9相同。 提交远程训练作业。 from modelarts.estimatorV2 import Estimator parameters = [] parameters.append({"name": "data_url", "value": data_local}) parameters.append({"name": "output_dir", "value": os.path.join(base_local_path, "output/")}) parameters.append({"name": "epoc_num", "value": 2}) # 启动脚本以parser.add_argument('--dist', action='store_true')的形式来接收该布尔类型的参数,如果要传入True,则以本行代码的形式传递; parameters.append({"name": "dist"}) estimator = Estimator(session=session, training_files=training_file, outputs=[output], parameters=parameters, framework_type='PyTorch', train_instance_type='modelarts.p3.large.public.distributed', train_instance_count=2, script_interpreter="/home/ma-user/anaconda3/envs/PyTorch-1.4/bin/python", log_url=base_bucket_path + 'log/', job_description='This is a image net train job') estimator.fit(inputs=[input_data], job_name="cifar10-dis-1") Estimator初始化时与本地训练的区别在于参数train_instance_type,需要从10得到的结果中选择一个;参数train_instance_count的值取决于第10步中的max_num。 训练任务提交后,SDK会依次帮助用户完成以下流程: 将训练脚本打包成zip文件,上传到3中指定的obs_path中; 如果训练数据保存在Notebook中,则将其打包成zip文件并上传到指定的obs_path中; 将训练作业提交到ModelArts训练服务中,训练作业会使用当前Notebook的镜像来执行训练作业; 训练任务得到的输出上传到4指定的obs_path中,日志上传到log_url指定的位置中。 在这一步中需要注意的一个问题: 如果用户在自己的训练脚本中要创建新的目录或文件,请在以下几种目录中创建: (1)/home/ma-user/work; (2)/cache; (3)inputs或者outputs中指定的local_path,如在2中初始化InputData时,填写了local_path="/home/ma-user/work/xx/yy/",则在该目录下也可以创建新目录或文件; 父主题: 训练作业调测
  • 使用SDK调测单机训练作业 代码中涉及到的OBS路径,请用户替换为自己的实际OBS路径。 代码是以PyTorch为例编写的,不同的AI框架之间,整体流程是完全相同的,仅需修改6和10中的framework_type参数值即可,例如:MindSpore框架,此处framework_type=Ascend-Powered-Engine。 Session初始化。 代码如下:这里只列出最常用的一种方式,更多方式请参考《Session鉴权章节》 from modelarts.session import Session session = Session() 准备训练数据,这里支持三种形式,用户可根据自己的情况选择一种。 import os from modelarts.train_params import InputData base_bucket_path = "obs://modelarts-xxx-a0de02a6/dis-train/cifar10/" base_local_path = "/home/ma-user/work/cifar10/" # 形式1,数据在OBS上,且是一个压缩文件 obs_path = os.path.join(base_bucket_path, "dataset-zip/dataset.zip") data_local = os.path.join(base_local_path, "dataset/") input_data = InputData(obs_path=obs_path, local_path=data_local, is_local_source=False) # 形式2,数据在OBS上,且是一个目录 #obs_path = os.path.join(base_bucket_path, "dataset/") #data_local = os.path.join(base_local_path, "dataset/") #input_data = InputData(obs_path=obs_path, local_path=data_local, is_local_source=False) # 形式3,数据在Notebook中,且是一个目录,一般是使用SFS挂载磁盘的场景 #obs_path = os.path.join(base_bucket_path, "dataset-local/") #data_local = os.path.join(base_local_path, "dataset/") #input_data = InputData(obs_path=obs_path, local_path=data_local, is_local_source=True) 参数解释: is_local_source:可选参数,默认为False,指定训练数据的保存位置。 False:训练数据保存在参数obs_path指定的位置中; True:训练数据保存在notebook中,由local_path指定。 obs_path:obs地址。根据is_local_source值的变化,有不同的含义。 is_local_source=False,此时是必选参数,代表训练数据位置,支持文件夹和压缩文件。 is_local_source=True,此时是可选参数。如果用户填写了该参数,则开始训练时会将Notebook中的训练数据压缩并上传到该位置,不可重复上传。如果第一次上传后,建议将is_local_source修改为False,obs_path指向刚才上传的压缩数据文件位置;如果用户没有填写,则不会进行压缩上传。 local_path:必选参数,Notebook中的路径。用户的训练脚本需要从该目录中读取数据,完成训练任务。根据is_local_source值的变化,有不同的含义。 is_local_source=True,此时代表训练数据位置,仅支持文件夹。 is_local_source=False,训练过程中SDK会帮助用户将数据下载到该位置,如果训练数据是压缩文件,下载完成后会进行解压缩。 准备训练脚本。 from modelarts.train_params import TrainingFiles code_dir = os.path.join(base_local_path, "train/") # 这里提前将训练脚本放在了obs中,实际上训练脚本可以是任何来源,只要能够放到Notebook里边就行 session.obs.download_file(os.path.join(base_bucket_path, "train/test-pytorch.py"), code_dir) training_file = TrainingFiles(code_dir=code_dir, boot_file="test-pytorch.py", obs_path=base_bucket_path + 'train/') 参数解释: code_dir:必选参数,训练脚本所在的目录。在训练任务调测的情况下,必须是notebook中的目录,不能是OBS目录。 boot_file:必选参数,训练启动文件路径,路径格式为基于code_dir目录的相对路径,如实例代码中boot_file的完整路径为/home/ma-user/work/cifar10/train/test-pytorch.py,这里就只需要填写test-pytorch.py。 obs_path:可选参数,一个OBS目录。仅在本地单机调试时不需要该参数,提交远程训练时必选,会将训练脚本压缩并上传到该路径。 准备训练输出,如果用户不需要将训练输出上传到OBS,可以省略这一步。 from modelarts.train_params import OutputData output = OutputData(local_path=os.path.join(base_local_path, "output/"), obs_path=os.path.join(base_bucket_path, 'output/')) local_path:必选参数,一个notebook中的路径,训练脚本需要将输出的模型或其他数据保存在该目录下。 obs_path:必选参数,一个OBS目录。SDK会将local_path中的模型文件自动上传到这里。 查看训练支持的AI框架。 from modelarts.estimatorV2 import Estimator Estimator.get_framework_list(session) 参数session即是第一步初始化的数据。如果用户知道要使用的AI框架,可以略过这一步。 Estimator初始化。 from modelarts.estimatorV2 import Estimator parameters = [] parameters.append({"name": "data_url", "value": data_local}) parameters.append({"name": "output_dir", "value": os.path.join(base_local_path, "output/")}) parameters.append({"name": "epoc_num", "value": 2}) estimator = Estimator(session=session, training_files=training_file, outputs=[output], parameters=parameters, framework_type='PyTorch', train_instance_type='local', train_instance_count=1, script_interpreter="/home/ma-user/anaconda3/envs/PyTorch-1.4/bin/python", log_url=base_bucket_path + 'log/', job_description='This is a image net train job') 参数解释: session:必选参数,1中初始化的参数。 training_files:必选参数,3中初始化的训练文件。 outputs:可选参数,这里传入的是一个list,每个元素都是4中初始化的训练输出。 parameters:可选参数,一个list,每个元素都是一个字典,包含"name"和"value"两个字段,以"--name=value"的形式传递给训练启动文件。value支持字符串,整数,布尔等类型。对于布尔类型,建议用户在训练脚本中使用action='store_true'的形式来解析。 framework_type:必选参数,训练作业使用的AI框架类型,可参考步骤5查询的返回结果。 train_instance_type:必选参数,训练实例类型,这里指定'local'即为在notebook中进行训练。 train_instance_count:必选参数,训练使用的worker个数,单机训练时为1,训练作业只在当前使用的notebook中运行。 script_interpreter:可选参数,指定使用哪个python环境来执行训练任务,如果未指定,会默认使用当前的kernel。 log_url:可选参数,一个OBS地址,训练过程中,SDK会自动将训练的日志上传到该位置。但是如果训练任务运行在Ascend上,则是必选参数。 job_description:可选参数,训练任务的描述。 开始训练。 estimator.fit(inputs=[input_data], job_name="cifar10-dis") 参数解释: inputs:可选参数,一个list,每个元素都是2生成的实例。 job_name:可选参数,训练任务名,便于区分和记忆。 本地单机调试训练任务开始后,SDK会依次帮助用户完成以下流程: 初始化训练作业,如果2指定的训练数据在OBS上,这里会将数据下载到local_path中。 执行训练任务,用户的训练代码需要将训练输出保存在4中指定的local_path中。 将训练任务得到的输出上传到4指定的obs_path中,日志上传到第六步指定的log_url中。 同时,可以在任务名后增加时间后缀,区分不同的任务名称。 from datetime import datetime, timedelta import time base_name = "cifar10-dis" job_name = base_name + '-' + (datetime.now() + timedelta(hours=8)).strftime('%Y%m%d-%H%M%S') estimator.fit(inputs=[input_data], job_name=job_name) 多次调试。 上一步执行过程中,训练脚本的日志会实时打印到控制台,如果用户的代码或者参数有误的话,可以很方便的看到。在Notebook中经过多次调试,得到想要的结果后,可以进行下一步。 查询训练支持的计算节点类型和最大个数。 from modelarts.estimatorV2 import Estimator Estimator.get_spec_list(session=session) 参数session即是1初始化的数据。返回的是一个字典,其中flavors值是一个列表,描述了训练服务支持的所有规格的信息。每个元素中flavor_id是可直接用于远程训练任务的计算规格,max_num是该规格的最大节点数。如果用户知道要使用的计算规格,可以略过这一步。 提交远程训练作业。 from modelarts.estimatorV2 import Estimator parameters = [] parameters.append({"name": "data_url", "value": data_local}) parameters.append({"name": "output_dir", "value": os.path.join(base_local_path, "output/")}) parameters.append({"name": "epoch_num", "value": 2}) estimator = Estimator(session=session, training_files=training_file, outputs=[output], parameters=parameters, framework_type='PyTorch', train_instance_type='modelarts.vm.cpu.8u', train_instance_count=1, script_interpreter="/home/ma-user/anaconda3/envs/PyTorch-1.4/bin/python", log_url=base_bucket_path + 'log/', job_description='This is a image net train job') estimator.fit(inputs=[input_data], job_name="cifar10-dis") 在本地调测完成的基础上,只需要Estimator初始化时将参数train_instance_type修改为训练服务支持的规格即可(即第10步查询出来的flavor_id的值)。执行fit函数后,即可提交远程训练任务。 训练任务提交后,SDK会依次帮助用户完成以下流程: 将训练脚本打包成zip文件,上传到3中指定的obs_path中。 当训练数据保存在Notebook中,则将其打包成zip文件并上传到指定的obs_path中。 向ModelArts训练服务提交 自定义镜像 训练作业,使用的镜像为当前Notebook的镜像,这样保证了远程训练作业和在Notebook中的训练作业使用的运行环境一致。 训练任务得到的输出上传到4指定的obs_path中,日志上传到这一步log_url指定的位置中。 在这一步中需要注意的一个问题: 如果用户在自己的训练脚本中要创建新的目录或文件,请在以下几种目录中创建: /home/ma-user/work; /cache; inputs或者outputs中指定的local_path,如在步骤2中初始化InputData时,填写了local_path="/home/ma-user/work/xx/yy/",则在该目录下也可以创建新目录或文件。 父主题: 训练作业调测
  • 数据标注 由于模型训练过程需要大量有标签的数据,因此在模型训练之前需对没有标签的数据添加标签。您可以通过创建单人标注作业或团队标注作业对数据进行手工标注,或对任务启动智能标注添加标签,快速完成对图片的标注操作,也可以对已标注图片修改或删除标签进行重新标注。 人工标注:用户创建单人标注作业,对数据进行手工标注。 智能标注:在标注一定量的数据情况下,用户可以通过启动智能标注任务对数据进行自动标注,提高标注的效率。 团队标注:对于大批量的数据,用户可以通过创建团队标注作业,进行多人协同标注。 关于数据标注的详细信息,请参考数据标注。
  • 数据导出 ModelArts训练管理模块支持通过ModelArts数据集或者OBS目录中的文件创建训练作业。如果选择通过OBS目录的方式创建训练任务,用户需要将数据集中准备好的数据导出到OBS中。 导出数据到OBS 在数据集详情页面中,选中需要导出的数据或筛选出需要导出的数据,然后单击右上角“导出”。 数据来源选择“OBS”,填写相关信息,然后单击“确定”,开始执行导出操作。 “保存路径”:即导出数据存储的路径。建议不要将数据存储至当前数据集所在的输入路径或输出路径。 图9 导出至OBS 数据导出成功后,您可以前往您设置的保存路径,查看到存储的数据。 查看任务历史 当您导出数据后,可以通过任务历史查看导出任务明细。 在数据集详情页面中,单击右上角“任务历史 ”。 在弹出的“任务历史”对话框中,可以查看该数据集之前的导出任务历史。包括“任务ID”、“创建时间”、“导出方式”、“导出路径”、“导出样本总数”和“导出状态”。 图10 导出任务历史
  • 数据标注 人工标注 在“未标注”页签图片列表中,单击图片,自动跳转到标注页面。 在标注页面的工具栏中选择合适的标注工具,本示例使用矩形框进行标注。 图4 标注工具 使用标注工具选中目标区域,在弹出的标签文本框中,直接输入新的标签名。如果已存在标签,从下拉列表中选择已有的标签。单击“添加”完成标注。 图5 添加物体检测标签 单击页面上方“返回数据标注预览”查看标注信息,在弹框中单击“确定”保存当前标注并离开标注页面。选中的图片被自动移动至“已标注”页签,且在“未标注”和“全部”页签中,标签的信息也将随着标注步骤进行更新,如增加的标签名称、标签对应的图片数量。 智能标注 通过人工标注完成少量数据标注后,可以通过智能标注对剩下的数据进行自动标注,提高标注的效率。 在数据集详情页面,单击右上角“启动智能标注”。 在“启动智能标注”窗口中,填写如下参数,然后单击“提交”。 智能标注类型:主动学习 算法类型:快速型 其他参数采用默认值。 图6 启动智能标注任务 查看智能标注任务进度 智能标注任务启动后,可以在“待确认”页签下查看智能标注任务进度。当任务完成后,即可在“待确认”页签下查看自动标注好的数据。 图7 查看智能标注任务进度 确认智能标注结果 在智能标注任务完成后,在“待确认”页签下,单击具体图片进入标注详情页面,可以查看或修改智能标注的结果。 如果智能标注的数据无误,可单击右侧的“确认标注”完成标注,如果标注信息有误,可直接删除错误标注框,然后重新标注,以纠正标注信息。针对物体检测任务,需逐一确认。确保所有图片已完成确认,然后执行下一步操作。 图8 确认智能标注结果
  • 数据分析 数据集创建完成后,可以基于图片各项特征,如模糊度、亮度等进行分析,帮助用户更好的分析数据集的数据质量,判断数据集是否满足自己的算法和模型要求。 创建特征分析任务 在执行特征分析前,需先发布一个数据集版本。在数据集详情页单击右上角的“发布”,为数据集发布一个新版本。 版本发布完成后,选择“数据特征”页签,单击,在弹窗中选择刚才发布的数据集版本,并单击“确定”,启动特征分析任务。 图2 启动特征分析 查看任务进度 任务执行过程中,可以单击“任务历史”,查看任务进度。当任务状态变为“成功”时,表示任务执行完成。 图3 特征分析任务进度 查看特征分析结果 特征分析任务执行完成后,可以在“数据特征”页签下,选择数据集版本、类型和数据特征指标,页面将自动呈现您选择对应版本及其指标数据,您可以根据呈现的图表了解数据分布情况,帮助您更好的理解您的数据。 “版本选择”:根据实际情况选择已执行过特征任务的版本,可以选多个进行对比,也可以只选择一个。 “类型”:根据需要分析的类型选择。支持“all”、“train”、“eval”和“inference”。分别表示所有、训练、评估和推理类型。 “数据特征指标”:选择您需要展示的指标。详细指标解释,可参见特征分析指标列表。 在特征分析结果中,例如图片亮度指标,数据分布中,分布不均匀,缺少某一种亮度的图片,而此指标对模型训练非常关键。此时可选择增加对应亮度的图片,让数据更均衡,为后续模型构建做准备。
共100000条