华为云用户手册

  • 服务管理概述 服务管理,包括将已创建成功的模型部署为在线服务或本地服务。可以实现在线预测、本地预测、服务详情查询、查看服务日志等功能。 这里的在线服务包括“predictor”和“transformer”两类,都包括下文描述的功能,本章节以“predictor”服务为例进行说明。 本章节的示例代码都是在ModelArts Notebook中实现的,如果在其它开发环境使用,需要进行Session鉴权,请参见Session鉴权。 父主题: 服务管理
  • 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式1:根据导入模型或模型调试生成的模型对象进行模型对象删除 1 2 3 4 5 6 from modelarts.session import Session from modelarts.model import Model session = Session() model_instance = Model(session, model_id="your_model_id") model_instance.delete_model() 方式2:根据查询模型对象列表返回的模型对象进行模型删除 1 2 3 4 5 6 7 from modelarts.session import Session from modelarts.model import Model session = Session() model_object_list = Model.get_model_object_list(session) model_instance = model_object_list[0] model_instance.delete_model()
  • 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式1:根据导入模型生成的模型对象进行模型详情查询 1 2 3 4 5 6 7 from modelarts.session import Session from modelarts.model import Model session = Session() model_instance = Model(session, model_id="your_model_id") model_info = model_instance.get_model_info() print(model_info) 方式2:根据查询模型对象列表返回的模型对象进行模型详情查询 1 2 3 4 5 6 7 8 from modelarts.session import Session from modelarts.model import Model session = Session() model_object_list = Model.get_model_object_list(session) model_instance = model_object_list[0] model_info = model_instance.get_model_info() print(model_info)
  • 参数说明 表1 get_model_info返回参数说明 参数 参数类型 描述 model_id String 模型ID。 model_name String 模型名称。 model_version String 模型版本。 tenant String 租户。 project String 项目。 owner String 用户。 create_at Long 模型创建时间,距'1970.1.1 0:0:0 UTC'的毫秒数。 source_location String 模型所在的OBS路径。 source_job_id String 来源训练作业的ID。 source_job_version String 来源训练作业的版本。 source_type String 模型来源的类型。 当模型为自动学习部署过来时,取值为“auto”。 当模型是用户通过训练作业或OBS模型文件部署时,此值为空。 model_type String 模型类型,取值为:TensorFlow/MXNet/Spark_MLlib/Scikit_Learn/XGBoost/MindSpore/Image/PyTorch。 model_size Long 模型大小,单位为字节数。 model_status String 模型状态,取值为:publishing/published/failed。 description String 模型描述信息。 execution_code String 执行代码存放的OBS地址,名称固定为“customize_service.py”。 schema_doc String 模型schema文档的下载地址。 image_address String 模型的执行镜像地址,镜像未构建之前(即当前模型从未发布成服务),显示为空。 input_params params结构数组 模型的输入参数集,默认为空 output_params params结构数组 模型的输出参数集,默认为空 dependencies dependency结构数组 运行代码及模型需安装的包。 model_metrics String 模型评测参数,仅当source_job_id和source_job_version有值且对应的训练作业有评测结果时会返回该结果。 apis String 模型所有的apis入参出参信息。 表2 params结构 参数 参数类型 描述 url String api代表的url路径。 param_name String 参数名,不超过64个字符。 param_type String 参数类型,取值为:int/string/float/timestamp/date/file。 min Number 当param_type为int或float时创建模型时,有配置min则返回,默认为空。 max Number 当param_type为int或float时创建模型时,有配置max则返回,默认为空。 param_desc String 参数描述,不超过100个字符,默认为空。 表3 dependency结构 参数 参数类型 描述 installer String 安装器名称。 packages package结构数组 依赖包集合。 表4 package结构 参数 参数类型 描述 package_name String 依赖包名称。 package_version String 依赖包版本。 restraint String 版本过滤条件,取值为: EXACT:等于给定版本 ATLEAST:不小于给定版本 ATMOST:不大于给定版本 表5 metric参数说明 参数 是否必选 参数类型 描述 f1 是 Double 平均数。 recall 是 Double 召回率。 precision 是 Double 精确率。 accuracy 是 Double 准确率。
  • 参数说明 查询模型列表,返回list,list大小等于当前用户所有已经部署的模型个数, list中每个元素都是Model对象,对象属性和查询模型详情相同。查询模型列表返回说明: model_list = [model_instance1, model_instance2, model_instance3 ...],列表中元素model_instance对象即为本章节描述的模型管理,可调用模型接口。 支持按照检索参数查询模型列表,返回满足检索条件的模型list,检索参数如表1所示。 在查询列表时,返回list的同时,会打印模型列表的详细信息,如表2和表3所示。 当前支持最大获取150个模型对象。 表1 查询检索参数说明 参数 是否必选 参数类型 说明 model_name 否 String 模型名称,可支持模糊匹配。 model_version 否 String 模型版本。 model_status 否 String 模型状态,可根据模型的“publishing”、“published”、“failed”三种状态执行查询。 description 否 String 描述信息,可支持模糊匹配。 offset 否 Integer 指定要查询页的索引,默认为“0”。 limit 否 Integer 指定每一页返回的最大条目数,默认为“280”。 sort_by 否 String 指定排序字段,可选“create_at”、“model_version”、“model_size”,默认是可选“create_at”。 order 否 String 排序方式,可选“asc”或“desc”,代表递增排序及递减排序,默认是“desc”。 workspace_id 否 String 工作空间ID,默认为“0”。 表2 get_model_list打印参数说明 参数 参数类型 描述 total_count Integer 不分页的情况下,符合查询条件的总模型数量。 count Integer 模型数量。 models model结构数组 模型元数据信息。
  • 示例代码 在ModelArts Notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 场景1:查询当前用户所有模型对象 1 2 3 4 5 6 from modelarts.session import Session from modelarts.model import Model session = Session() model_object_list = Model.get_model_object_list(session) print(model_object_list) 场景2:按照检索条件查询当前用户模型对象 1 2 3 4 5 6 from modelarts.session import Session from modelarts.model import Model session = Session() model_object_list = Model.get_model_object_list(session, model_status="published", model_name="digit", order="desc") print(model_object_list)
  • 参数说明 表1 查询检索参数说明 参数 是否必选 参数类型 说明 model_name 否 String 模型名称,可支持模糊匹配。 model_version 否 String 模型版本。 model_status 否 String 模型状态,可根据模型的“publishing”、“published”、“failed”三种状态执行查询。 description 否 String 描述信息,可支持模糊匹配。 offset 否 Integer 指定要查询页的索引,默认为“0”。 limit 否 Integer 指定每一页返回的最大条目数,默认为“280”。 sort_by 否 String 指定排序字段,可选“create_at”、“model_version”、“model_size”,默认是可选“create_at”。 order 否 String 排序方式,可选“asc”或“desc”,代表递增排序及递减排序,默认是“desc”。 workspace_id 否 String 工作空间ID,默认为“0”。 表2 get_model_list打印参数说明 参数 参数类型 描述 total_count Integer 不分页的情况下,符合查询条件的总模型数量。 count Integer 模型数量。 models model结构数组 模型元数据信息。
  • 示例代码 在ModelArts Notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 场景1:查询当前用户所有模型 1 2 3 4 5 6 from modelarts.session import Session from modelarts.model import Model session = Session() model_list = Model.get_model_list(session) print(model_list) 场景2:按照检索条件查询当前用户模型 1 2 3 4 5 6 from modelarts.session import Session from modelarts.model import Model session = Session() model_list = Model.get_model_list(session, model_status="published", model_name="digit", order="desc") print(model_list)
  • 示例代码 账号与用户的概念介绍,请参见 IAM 基本概念。获取您的账号、用户名等信息,请参见获取用户名、用户ID、项目名称、项目ID。 使用账号认证 “username”填写您的账号名。 1 2 from modelarts.session import Session session = Session(username='***', password='***', region_name='***', project_id='***') 如果您的华为云账号已经升级为华为账号,则账号认证方式将不可用,请创建一个IAM用户,使用IAM用户认证。 使用IAM用户认证 “account”填写您的账号名,“username”填写您的IAM用户名。 1 2 from modelarts.session import Session session = Session(account='***', username='***', password='***', region_name='***', project_id='***')
  • Session鉴权概述 Session模块的主要作用是实现与公有云资源的鉴权,并初始化ModelArts SDK Client、OBS Client。当成功建立Session后,您可以直接调用ModelArts的SDK接口。 ModelArts开发环境Notebook不需要Session鉴权,可以直接使用。示例代码如下: 1 2 from modelarts.session import Session session = Session() 本地PC使用ModelArts SDK时,需要进行Session鉴权。鉴权方式可参考如下认证方式,选择其中一种方式进行认证即可。 用户名密码认证模式: 支持OBS管理、数据管理、训练管理、模型管理、服务管理的鉴权。 用户AK-SK认证模式: 支持OBS管理、数据管理、训练管理、模型管理、服务管理的鉴权。
  • 用户名密码认证模式 本地安装完成ModelArts SDK后,可通过用户名密码认证模式进行Session鉴权。示例代码如下: 使用账号认证 “username”填写您的账号名。 1 2 3 4 5 6 7 from modelarts.session import Session # 认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全; # 本示例以password保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_PASSWORD。 __PASSWORD = os.environ["HUAWEICLOUD_SDK_PASSWORD"] # 如果进行了加密还需要进行解密操作 session = Session(username='***', password=__PASSWORD, region_name='***', project_id='***') 使用IAM用户认证 “account”填写您的账号名,“username”填写您的IAM用户名。 1 2 3 4 5 6 7 from modelarts.session import Session # 认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全; # 本示例以password保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_PASSWORD。 __PASSWORD = os.environ["HUAWEICLOUD_SDK_PASSWORD"] # 如果进行了加密还需要进行解密操作 session = Session(account='***', username='***', password=__PASSWORD, region_name='***', project_id='***') 账号与用户的概念介绍,请参见IAM基本概念。获取您的账号、用户名等信息,请参见获取用户名、用户ID、项目名称、项目ID。 如果您的华为云账号已经升级为华为账号,则账号认证方式将不可用,请创建一个IAM用户,使用IAM用户认证。
  • 本地安装ModelArts SDK步骤 在本地安装ModelArts SDK,具体的配置步骤如下: 步骤一:下载ModelArts SDK 步骤二:配置运行环境 步骤三:安装ModelArts SDK ModelArts SDK支持安装在Windows和Linux操作系统中。 如果在Windows上安装ModelArts SDK时出现报错,可参见FAQ:安装ModelArts SDK报错处理报错。
  • 文档导读 本文档指导您如何安装和配置开发环境、如何通过调用ModelArts SDK提供的接口函数进行二次开发。 章节 内容 SDK简介 简要介绍ModelArts SDK的概念。 快速开始 介绍如何使用ModelArts SDK进行二次开发。 (可选)本地服务器安装ModelArts SDK 介绍如何在本地安装ModelArts SDK。 (可选)Session鉴权 Session模块的主要作用是实现与公有云资源的鉴权,并初始化ModelArts SDK Client、OBS Client。 OBS管理概述 ModelArts SDK支持对OBS的SDK接口进行调用,包括创建OBS桶,上传/下载文件和文件夹,删除OBS对象和桶。 ModelArts SDK具体操作管理请参见如下章节: 数据管理 训练管理 模型管理 服务管理 介绍使用ModelArts SDK进行的常用操作。
  • 使用SDK调测多机分布式训练作业 代码中涉及到的OBS路径,请用户替换为自己的实际OBS路径。 代码是以PyTorch为例编写的,不同的AI框架之间,整体流程是完全相同的,仅需修改7和11中的 framework_type参数值即可,例如:MindSpore框架,此处framework_type=Ascend-Powered-Engine。 Session初始化,与使用SDK调测单机训练作业中的1相同。 准备训练数据,与使用SDK调测单机训练作业中的2相同,唯一的不同在于obs_path参数是必选的。 准备训练脚本。 from modelarts.train_params import TrainingFiles code_dir = os.path.join(base_local_path, "train/") # 这里提前将训练脚本放在了obs中,实际上训练脚本可以是任何来源,只要能够放到Notebook里边就行 session.obs.download_file(os.path.join(base_bucket_path, "train/test-pytorch.py"), code_dir) training_file = TrainingFiles(code_dir=code_dir, boot_file="test-pytorch.py", obs_path=base_bucket_path + 'train/') 参数解释: code_dir:必选参数,训练脚本所在的目录。在本地调试的情况下,必须是notebook目录,不能是OBS目录。 boot_file:必选参数,训练启动文件,在code_dir目录下。 obs_path:在多机分布式调测时必选参数,一个OBS目录,SDK会将notebook目录code_dir打包上传到obs_path中。 准备训练输出,与单机训练作业调试4相同。 查看训练支持的AI框架,与单机训练作业调试5相同。 保存当前Notebook为新镜像,与单机训练作业调试9相同。 Estimator初始化。 from modelarts.estimatorV2 import Estimator parameters = [] parameters.append({"name": "data_url", "value": data_local}) parameters.append({"name": "output_dir", "value": os.path.join(base_local_path, "output/")}) parameters.append({"name": "epoc_num", "value": 2}) # 启动脚本以parser.add_argument('--dist', action='store_true')的形式来接收该布尔类型的参数,如果要传入True,则以本行代码的形式传递; parameters.append({"name": "dist"}) estimator = Estimator(session=session, training_files=training_file, outputs=[output], parameters=parameters, framework_type='PyTorch', train_instance_type='local', train_instance_count=2, script_interpreter="/home/ma-user/anaconda3/envs/PyTorch-1.4/bin/python", log_url=base_bucket_path + 'log/', job_description='This is a image net train job') 参数解释: session:必选参数,1中初始化的参数。 training_files:必选参数,3中初始化的训练文件。 outputs:可选参数,这里传入的是一个list,每个元素都是步骤4中初始化的训练输出。 parameters:可选参数,一个list,每个元素都是一个字典,包含"name"和"value"两个字段,以"–name=value"的形式传递给训练启动文件。value支持字符串,整数,布尔等类型。对于布尔类型,建议用户在训练脚本中使用action='store_true'的形式来解析。 framework_type:必选参数,训练作业使用的AI框架类型,可参考步骤5的返回结果。 train_instance_type:必选参数,训练实例类型,这里指定’local’即为本地训练。 train_instance_count:必选参数,训练使用的worker个数,分布式调测时为2,训练开始时SDK还会再创建一个Notebook,与当前的Notebook组成一个2节点的分布式调试环境。 script_interpreter:可选参数,指定使用哪个python环境来执行训练任务,如果未指定,会默认使用当前的kernel。 log_url:可选参数,一个OBS地址,本地训练过程中,SDK会自动将训练的日志上传到该位置;但是如果训练任务运行在Ascend上,则是必选参数。 job_description:可选参数,训练任务的描述。 开始训练。 estimator.fit(inputs=[input_data], job_name="cifar10-dis") 参数解释: inputs:可选参数,一个list,每个元素都是步骤2中生成的实例; job_name:可选参数,训练任务名,便于区分和记忆。 本地分布式训练任务开始后,SDK会依次帮助用户完成以下流程: 将训练脚本打包成zip文件,上传到3中指定的obs_path中。 如果训练数据保存在Notebook中,则将其打包成zip文件并上传到指定的obs_path中。 创建一个附属Notebook,与当前使用的Notebook组成分布式训练的两个worker。 初始化训练作业,将数据下载到local_path中。 执行训练任务,用户的代码需要将训练输出保存在4指定的local_path中。 将训练任务得到的输出上传到4指定的obs_path中,日志上传到7指定的log_url中。 多次调试,与单机调测时8作用相同。 查询训练支持的工作节点类型,与单机调测时9相同。 提交远程训练作业。 from modelarts.estimatorV2 import Estimator parameters = [] parameters.append({"name": "data_url", "value": data_local}) parameters.append({"name": "output_dir", "value": os.path.join(base_local_path, "output/")}) parameters.append({"name": "epoc_num", "value": 2}) # 启动脚本以parser.add_argument('--dist', action='store_true')的形式来接收该布尔类型的参数,如果要传入True,则以本行代码的形式传递; parameters.append({"name": "dist"}) estimator = Estimator(session=session, training_files=training_file, outputs=[output], parameters=parameters, framework_type='PyTorch', train_instance_type='modelarts.p3.large.public.distributed', train_instance_count=2, script_interpreter="/home/ma-user/anaconda3/envs/PyTorch-1.4/bin/python", log_url=base_bucket_path + 'log/', job_description='This is a image net train job') estimator.fit(inputs=[input_data], job_name="cifar10-dis-1") Estimator初始化时与本地训练的区别在于参数train_instance_type,需要从10得到的结果中选择一个;参数train_instance_count的值取决于第10步中的max_num。 训练任务提交后,SDK会依次帮助用户完成以下流程: 将训练脚本打包成zip文件,上传到3中指定的obs_path中; 如果训练数据保存在Notebook中,则将其打包成zip文件并上传到指定的obs_path中; 将训练作业提交到ModelArts训练服务中,训练作业会使用当前Notebook的镜像来执行训练作业; 训练任务得到的输出上传到4指定的obs_path中,日志上传到log_url指定的位置中。 在这一步中需要注意的一个问题: 如果用户在自己的训练脚本中要创建新的目录或文件,请在以下几种目录中创建: (1)/home/ma-user/work; (2)/cache; (3)inputs或者outputs中指定的local_path,如在2中初始化InputData时,填写了local_path="/home/ma-user/work/xx/yy/",则在该目录下也可以创建新目录或文件; 父主题: 训练作业调测
  • 使用SDK调测单机训练作业 代码中涉及到的OBS路径,请用户替换为自己的实际OBS路径。 代码是以PyTorch为例编写的,不同的AI框架之间,整体流程是完全相同的,仅需修改6和10中的framework_type参数值即可,例如:MindSpore框架,此处framework_type=Ascend-Powered-Engine。 Session初始化。 代码如下:这里只列出最常用的一种方式,更多方式请参考《Session鉴权章节》 from modelarts.session import Session session = Session() 准备训练数据,这里支持三种形式,用户可根据自己的情况选择一种。 import os from modelarts.train_params import InputData base_bucket_path = "obs://modelarts-xxx-a0de02a6/dis-train/cifar10/" base_local_path = "/home/ma-user/work/cifar10/" # 形式1,数据在OBS上,且是一个压缩文件 obs_path = os.path.join(base_bucket_path, "dataset-zip/dataset.zip") data_local = os.path.join(base_local_path, "dataset/") input_data = InputData(obs_path=obs_path, local_path=data_local, is_local_source=False) # 形式2,数据在OBS上,且是一个目录 #obs_path = os.path.join(base_bucket_path, "dataset/") #data_local = os.path.join(base_local_path, "dataset/") #input_data = InputData(obs_path=obs_path, local_path=data_local, is_local_source=False) # 形式3,数据在Notebook中,且是一个目录,一般是使用SFS挂载磁盘的场景 #obs_path = os.path.join(base_bucket_path, "dataset-local/") #data_local = os.path.join(base_local_path, "dataset/") #input_data = InputData(obs_path=obs_path, local_path=data_local, is_local_source=True) 参数解释: is_local_source:可选参数,默认为False,指定训练数据的保存位置。 False:训练数据保存在参数obs_path指定的位置中; True:训练数据保存在notebook中,由local_path指定。 obs_path:obs地址。根据is_local_source值的变化,有不同的含义。 is_local_source=False,此时是必选参数,代表训练数据位置,支持文件夹和压缩文件。 is_local_source=True,此时是可选参数。如果用户填写了该参数,则开始训练时会将Notebook中的训练数据压缩并上传到该位置,不可重复上传。如果第一次上传后,建议将is_local_source修改为False,obs_path指向刚才上传的压缩数据文件位置;如果用户没有填写,则不会进行压缩上传。 local_path:必选参数,Notebook中的路径。用户的训练脚本需要从该目录中读取数据,完成训练任务。根据is_local_source值的变化,有不同的含义。 is_local_source=True,此时代表训练数据位置,仅支持文件夹。 is_local_source=False,训练过程中SDK会帮助用户将数据下载到该位置,如果训练数据是压缩文件,下载完成后会进行解压缩。 准备训练脚本。 from modelarts.train_params import TrainingFiles code_dir = os.path.join(base_local_path, "train/") # 这里提前将训练脚本放在了obs中,实际上训练脚本可以是任何来源,只要能够放到Notebook里边就行 session.obs.download_file(os.path.join(base_bucket_path, "train/test-pytorch.py"), code_dir) training_file = TrainingFiles(code_dir=code_dir, boot_file="test-pytorch.py", obs_path=base_bucket_path + 'train/') 参数解释: code_dir:必选参数,训练脚本所在的目录。在训练任务调测的情况下,必须是notebook中的目录,不能是OBS目录。 boot_file:必选参数,训练启动文件路径,路径格式为基于code_dir目录的相对路径,如实例代码中boot_file的完整路径为/home/ma-user/work/cifar10/train/test-pytorch.py,这里就只需要填写test-pytorch.py。 obs_path:可选参数,一个OBS目录。仅在本地单机调试时不需要该参数,提交远程训练时必选,会将训练脚本压缩并上传到该路径。 准备训练输出,如果用户不需要将训练输出上传到OBS,可以省略这一步。 from modelarts.train_params import OutputData output = OutputData(local_path=os.path.join(base_local_path, "output/"), obs_path=os.path.join(base_bucket_path, 'output/')) local_path:必选参数,一个notebook中的路径,训练脚本需要将输出的模型或其他数据保存在该目录下。 obs_path:必选参数,一个OBS目录。SDK会将local_path中的模型文件自动上传到这里。 查看训练支持的AI框架。 from modelarts.estimatorV2 import Estimator Estimator.get_framework_list(session) 参数session即是第一步初始化的数据。如果用户知道要使用的AI框架,可以略过这一步。 Estimator初始化。 from modelarts.estimatorV2 import Estimator parameters = [] parameters.append({"name": "data_url", "value": data_local}) parameters.append({"name": "output_dir", "value": os.path.join(base_local_path, "output/")}) parameters.append({"name": "epoc_num", "value": 2}) estimator = Estimator(session=session, training_files=training_file, outputs=[output], parameters=parameters, framework_type='PyTorch', train_instance_type='local', train_instance_count=1, script_interpreter="/home/ma-user/anaconda3/envs/PyTorch-1.4/bin/python", log_url=base_bucket_path + 'log/', job_description='This is a image net train job') 参数解释: session:必选参数,1中初始化的参数。 training_files:必选参数,3中初始化的训练文件。 outputs:可选参数,这里传入的是一个list,每个元素都是4中初始化的训练输出。 parameters:可选参数,一个list,每个元素都是一个字典,包含"name"和"value"两个字段,以"--name=value"的形式传递给训练启动文件。value支持字符串,整数,布尔等类型。对于布尔类型,建议用户在训练脚本中使用action='store_true'的形式来解析。 framework_type:必选参数,训练作业使用的AI框架类型,可参考步骤5查询的返回结果。 train_instance_type:必选参数,训练实例类型,这里指定'local'即为在notebook中进行训练。 train_instance_count:必选参数,训练使用的worker个数,单机训练时为1,训练作业只在当前使用的notebook中运行。 script_interpreter:可选参数,指定使用哪个python环境来执行训练任务,如果未指定,会默认使用当前的kernel。 log_url:可选参数,一个OBS地址,训练过程中,SDK会自动将训练的日志上传到该位置。但是如果训练任务运行在Ascend上,则是必选参数。 job_description:可选参数,训练任务的描述。 开始训练。 estimator.fit(inputs=[input_data], job_name="cifar10-dis") 参数解释: inputs:可选参数,一个list,每个元素都是2生成的实例。 job_name:可选参数,训练任务名,便于区分和记忆。 本地单机调试训练任务开始后,SDK会依次帮助用户完成以下流程: 初始化训练作业,如果2指定的训练数据在OBS上,这里会将数据下载到local_path中。 执行训练任务,用户的训练代码需要将训练输出保存在4中指定的local_path中。 将训练任务得到的输出上传到4指定的obs_path中,日志上传到第六步指定的log_url中。 同时,可以在任务名后增加时间后缀,区分不同的任务名称。 from datetime import datetime, timedelta import time base_name = "cifar10-dis" job_name = base_name + '-' + (datetime.now() + timedelta(hours=8)).strftime('%Y%m%d-%H%M%S') estimator.fit(inputs=[input_data], job_name=job_name) 多次调试。 上一步执行过程中,训练脚本的日志会实时打印到控制台,如果用户的代码或者参数有误的话,可以很方便的看到。在Notebook中经过多次调试,得到想要的结果后,可以进行下一步。 查询训练支持的计算节点类型和最大个数。 from modelarts.estimatorV2 import Estimator Estimator.get_spec_list(session=session) 参数session即是1初始化的数据。返回的是一个字典,其中flavors值是一个列表,描述了训练服务支持的所有规格的信息。每个元素中flavor_id是可直接用于远程训练任务的计算规格,max_num是该规格的最大节点数。如果用户知道要使用的计算规格,可以略过这一步。 提交远程训练作业。 from modelarts.estimatorV2 import Estimator parameters = [] parameters.append({"name": "data_url", "value": data_local}) parameters.append({"name": "output_dir", "value": os.path.join(base_local_path, "output/")}) parameters.append({"name": "epoch_num", "value": 2}) estimator = Estimator(session=session, training_files=training_file, outputs=[output], parameters=parameters, framework_type='PyTorch', train_instance_type='modelarts.vm.cpu.8u', train_instance_count=1, script_interpreter="/home/ma-user/anaconda3/envs/PyTorch-1.4/bin/python", log_url=base_bucket_path + 'log/', job_description='This is a image net train job') estimator.fit(inputs=[input_data], job_name="cifar10-dis") 在本地调测完成的基础上,只需要Estimator初始化时将参数train_instance_type修改为训练服务支持的规格即可(即第10步查询出来的flavor_id的值)。执行fit函数后,即可提交远程训练任务。 训练任务提交后,SDK会依次帮助用户完成以下流程: 将训练脚本打包成zip文件,上传到3中指定的obs_path中。 当训练数据保存在Notebook中,则将其打包成zip文件并上传到指定的obs_path中。 向ModelArts训练服务提交 自定义镜像 训练作业,使用的镜像为当前Notebook的镜像,这样保证了远程训练作业和在Notebook中的训练作业使用的运行环境一致。 训练任务得到的输出上传到4指定的obs_path中,日志上传到这一步log_url指定的位置中。 在这一步中需要注意的一个问题: 如果用户在自己的训练脚本中要创建新的目录或文件,请在以下几种目录中创建: /home/ma-user/work; /cache; inputs或者outputs中指定的local_path,如在步骤2中初始化InputData时,填写了local_path="/home/ma-user/work/xx/yy/",则在该目录下也可以创建新目录或文件。 父主题: 训练作业调测
  • 数据标注 由于模型训练过程需要大量有标签的数据,因此在模型训练之前需对没有标签的数据添加标签。您可以通过创建单人标注作业或团队标注作业对数据进行手工标注,或对任务启动智能标注添加标签,快速完成对图片的标注操作,也可以对已标注图片修改或删除标签进行重新标注。 人工标注:用户创建单人标注作业,对数据进行手工标注。 智能标注:在标注一定量的数据情况下,用户可以通过启动智能标注任务对数据进行自动标注,提高标注的效率。 团队标注:对于大批量的数据,用户可以通过创建团队标注作业,进行多人协同标注。 关于数据标注的详细信息,请参考数据标注。
  • 数据导出 ModelArts训练管理模块支持通过ModelArts数据集或者OBS目录中的文件创建训练作业。如果选择通过OBS目录的方式创建训练任务,用户需要将数据集中准备好的数据导出到OBS中。 导出数据到OBS 在数据集详情页面中,选中需要导出的数据或筛选出需要导出的数据,然后单击右上角“导出”。 数据来源选择“OBS”,填写相关信息,然后单击“确定”,开始执行导出操作。 “保存路径”:即导出数据存储的路径。建议不要将数据存储至当前数据集所在的输入路径或输出路径。 图9 导出至OBS 数据导出成功后,您可以前往您设置的保存路径,查看到存储的数据。 查看任务历史 当您导出数据后,可以通过任务历史查看导出任务明细。 在数据集详情页面中,单击右上角“任务历史 ”。 在弹出的“任务历史”对话框中,可以查看该数据集之前的导出任务历史。包括“任务ID”、“创建时间”、“导出方式”、“导出路径”、“导出样本总数”和“导出状态”。 图10 导出任务历史
  • 数据分析 数据集创建完成后,可以基于图片各项特征,如模糊度、亮度等进行分析,帮助用户更好的分析数据集的数据质量,判断数据集是否满足自己的算法和模型要求。 创建特征分析任务 在执行特征分析前,需先发布一个数据集版本。在数据集详情页单击右上角的“发布”,为数据集发布一个新版本。 版本发布完成后,选择“数据特征”页签,单击,在弹窗中选择刚才发布的数据集版本,并单击“确定”,启动特征分析任务。 图2 启动特征分析 查看任务进度 任务执行过程中,可以单击“任务历史”,查看任务进度。当任务状态变为“成功”时,表示任务执行完成。 图3 特征分析任务进度 查看特征分析结果 特征分析任务执行完成后,可以在“数据特征”页签下,选择数据集版本、类型和数据特征指标,页面将自动呈现您选择对应版本及其指标数据,您可以根据呈现的图表了解数据分布情况,帮助您更好的理解您的数据。 “版本选择”:根据实际情况选择已执行过特征任务的版本,可以选多个进行对比,也可以只选择一个。 “类型”:根据需要分析的类型选择。支持“all”、“train”、“eval”和“inference”。分别表示所有、训练、评估和推理类型。 “数据特征指标”:选择您需要展示的指标。详细指标解释,可参见特征分析指标列表。 在特征分析结果中,例如图片亮度指标,数据分布中,分布不均匀,缺少某一种亮度的图片,而此指标对模型训练非常关键。此时可选择增加对应亮度的图片,让数据更均衡,为后续模型构建做准备。
  • 数据标注 人工标注 在“未标注”页签图片列表中,单击图片,自动跳转到标注页面。 在标注页面的工具栏中选择合适的标注工具,本示例使用矩形框进行标注。 图4 标注工具 使用标注工具选中目标区域,在弹出的标签文本框中,直接输入新的标签名。如果已存在标签,从下拉列表中选择已有的标签。单击“添加”完成标注。 图5 添加物体检测标签 单击页面上方“返回数据标注预览”查看标注信息,在弹框中单击“确定”保存当前标注并离开标注页面。选中的图片被自动移动至“已标注”页签,且在“未标注”和“全部”页签中,标签的信息也将随着标注步骤进行更新,如增加的标签名称、标签对应的图片数量。 智能标注 通过人工标注完成少量数据标注后,可以通过智能标注对剩下的数据进行自动标注,提高标注的效率。 在数据集详情页面,单击右上角“启动智能标注”。 在“启动智能标注”窗口中,填写如下参数,然后单击“提交”。 智能标注类型:主动学习 算法类型:快速型 其他参数采用默认值。 图6 启动智能标注任务 查看智能标注任务进度 智能标注任务启动后,可以在“待确认”页签下查看智能标注任务进度。当任务完成后,即可在“待确认”页签下查看自动标注好的数据。 图7 查看智能标注任务进度 确认智能标注结果 在智能标注任务完成后,在“待确认”页签下,单击具体图片进入标注详情页面,可以查看或修改智能标注的结果。 如果智能标注的数据无误,可单击右侧的“确认标注”完成标注,如果标注信息有误,可直接删除错误标注框,然后重新标注,以纠正标注信息。针对物体检测任务,需逐一确认。确保所有图片已完成确认,然后执行下一步操作。 图8 确认智能标注结果
  • 基于样例的拓展 本章的场景样例可以结合第一章介绍的各模块代码样例进行修改和拓展.以straigh场景的osc为例,设定初始位置时,除了使用st坐标系(odr_point,即osc1.0中的LanePosition)还可以使用xyz坐标系(xyz_point,即osc1.0中的WorldPosition)来替代: st坐标系(odr_point)写法: Ego_InitPosition_LaneId: string = ['-1', '-2'] Ego_InitPosition_s: length = [0m..30m] Ego_Odr: odr_point = map.create_odr_point(road_id: '10', lane_id: Ego_InitPosition_LaneId, s: Ego_InitPosition_s, t: 0.0m) Ego_InitPosition: pose_3d with: keep(it.odr_point == Ego_Odr) 对应xyz坐标系(xyz_point)写法,其中y值-1.5m和-4.5m分别对应车道宽度为3m时的'-1'和'-2'车道的中心位置: y: length = [-1.5m, -4.5m] x: length = [0m..30m] Ego_xyz: xyz_point = map.create_xyz_point(x: x, y: y, z: 0.0m) Ego_InitPosition: pose_3d with: keep(it.xyz_point == Ego_xyz) 以上对等替换仅存在于odr_point的road_id固定的情形,当road_id(仿真器A中的TrackId)是一个可泛化的值时,起点可以出现在多条道路上,对应多段x和y值的组合区间,无法使用一个xyz_point直接对等泛化.此时可以使用多个动态场景来实现同等的泛化,例如: 假设地图上存在多条road,且对odr_point的road_id进行了泛化: Ego_InitPosition_Road_id: string = ['10', '1'] Ego_InitPosition_LaneId: string = ['-1', '-2'] Ego_InitPosition_s: length = [0m..30m] Ego_Odr: odr_point = map.create_odr_point(road_id: Ego_InitPosition_Road_id, lane_id: Ego_InitPosition_LaneId, s: Ego_InitPosition_s, t: 0.0m) Ego_InitPosition: pose_3d with: keep(it.odr_point == Ego_Odr) 可以在两个动态场景文件中分别使用一组xyz_point来替代,例如: 第一组对应road_id为'10'的情况(同前例): y: length = [-1.5m, -4.5m] x: length = [0m..30m] Ego_xyz: xyz_point = map.create_xyz_point(x: x, y: y, z: 0.0m) Ego_InitPosition: pose_3d with: keep(it.xyz_point == Ego_xyz) 第二组对应road_id为'1'的情况,该道路与road_id为'10'的道路垂直,x值的101.5m和104.5m分别对应车道宽度为3m时的'-1'和'-2'车道的中心位置: y: length = [-40m..-10m] x: length = [101.5m, 104.5m] Ego_xyz: xyz_point = map.create_xyz_point(x: x, y: y, z: 0.0m) Ego_InitPosition: pose_3d with: keep(it.xyz_point == Ego_xyz) 父主题: 种子地图的逻辑场景样例(仿真器A)
  • 种子地图的逻辑场景样例(仿真器A) 配合静态场景的种子场景,在本节提供了对应的适配仿真器A的逻辑场景样例.同样,考虑到仿真器A的支持程度,建议在转换时选择osc1.0版本. 使用仿真器A打开osc1.0场景时,由于编辑器显示问题,车辆会在道路初始位置重叠,但这不会影响场景运行,运行场景后车辆会从场景文件设置的初始位置开始行驶. straight merge split junction one way junction 基于样例的拓展 父主题: 动静态配套样例
  • ALKS样例 根据官方提供的ALKS样例,提供了一些osc2.0的场景(osc文件)及其适用于仿真器A的转化结果(xosc文件)。考虑到仿真器A的支持程度,建议在转换时选择osc1.0版本. FreeDriving FullyBlockingTarget PartiallyBlockingTarget FollowLeadVehicleEmergencyBrake CutInNoCollision CutInUnavoidableCollision CutOutFullyBlocking CutOutMultipleBlockingTargets ForwardDetectionRange 逻辑场景(以CutOutMultipleBlockingTargets为例) 父主题: 附录 Appendix
  • pose_3d 定义:三维空间的复合位置,包含位置点(odr_point或position_3d或road_point)和方向(orientation_3d)两个参数 用途:设置实体的初始位置(assign_init_speed动作)、目标位置(acquire_position动作) 参数:参数如下表. 表1 pose_3d参数 Parameter Type Mandatory Description xyz_point xyz_point no a pose in space specified in Cartesian (XYZ) coordinates. odr_point odr_point no a point expressed in ASAM OpenDRIVE coordinates. road_point road_point no a point on route network specified in S-T coordinates. orientation orientation_3d no three-dimensional orientation xyz_point、odr_point和road_point必须设置且仅设置一个,用以提供位置信息. orientation非必选项,当不设置orientation时,对应roll、pitch、yaw均为0时的方向 使用xyz_point、设置orientation my_xyz: xyz_point = map.create_xyz_point(x: 150.0m, y: 200.0m ,z: 0.0m) m_orientation: orientation_3d with: keep(it.roll == 0.0rad) keep(it.pitch == 0.0rad) keep(it.yaw == 1.57rad) my_pose: pose_3d with: keep(it.xyz_point == my_xyz) keep(it.orientation == m_orientation) 使用odr_point、不设置orientation my_odr: odr_point = map.create_odr_point(road_id: '1',lane_id:'-2',s: 3.0m, t: 0.0m) my_pose: pose_3d with: keep(it.odr_point == my_odr) 使用road_point、不设置orientation my_road: road_point with keep(it.road_id == '1') keep(it.s == 5.0m) keep(it.t == 0.0m) my_pose: pose_3d with: keep(it.road_point == my_road) 父主题: Struct
  • orientation_3d 定义:由Tait–Bryan角度的三个参数roll(横滚角,围绕x轴的角度)、pitch(俯仰角,围绕y轴的角度)和yaw(偏航角,围绕z轴的角度)定义的三维角度. 用途:设置实体的朝向角度、用于构成pose_3d. 参数:参数如下表. 表1 orientation_3d参数 Parameter Type Mandatory Description roll angle yes rotation angle around the x-axis. pitch angle yes rotation angle around the y-axis. yaw angle yes rotation angle around the z-axis. 根据ISO 8855的定义,角度旋转的顺序是:首先进行yaw(围绕z轴)、接着pitch(围绕新y轴),最后roll(围绕新x轴). 当实体的朝向与road0的方向相同时,无需设置orientation_3d. angle的单位一般为rad(弧度)而非degree(角度),rad = degree*pi/180, 1rad约等于57.3度(详见scalar units中的angle units一节) 与road 0的方向相反(相差180°) m_orientation: orientation_3d with: keep(it.roll == 0.0rad) keep(it.pitch == 0.0rad) keep(it.yaw == 3.14rad) 父主题: Struct
  • odr_point 定义:ASAM OpenDRIVE坐标系中的位置点(point). 用途:设置实体位置,用于构成pose_3d. 参数:参数如下表. 表1 odr_point参数 Parameter Type Mandatory Description road_id string yes ASAM OpenDRIVE identifier for the road lane_id string yes ASAM OpenDRIVE identifier for the lane s length yes Coordinate along the ASAM OpenDRIVE s-axis t length yes Coordinate along the ASAM OpenDRIVE t-axis, the t-coordinate is measured from the lane centerline keep创建 my_odr: odr_point with: keep(it.road_id == '1') keep(it.lane_id == '-2') keep(it.s == 3.0m) keep(it.t == 0.0m) create创建 my_odr: odr_point = map.create_odr_point(road_id: '1',lane_id:'-2',s: 3.0m, t: 0.0m) 父主题: Struct
  • road_point 定义:路网s-t坐标系中的特定位置点(point). 用途:设置实体位置,用于构成pose_3d. 参数:参数如下表. 表1 road_point参数 Parameter Type Mandatory Description road_id string yes identifier for the road in which this point is located s length yes Coordinate along the s-axis of the corresponding road t length yes Coordinate along the t-axis of the corresponding road keep创建 my_road: road_point with keep(it.road_id == '1') keep(it.s == 5.0m) keep(it.t == 0.0m) create创建 my_point: road_point = map.create_road_point(road_id: '1', s: 5.0m, t: 0.0m) 父主题: Struct
  • xyz_point 定义:笛卡尔(XYZ)坐标系中的特定位置点(point). 用途:设置实体位置,用于构成pose_3d. 参数:参数如下表. 表1 xyz_point参数 Parameter Type Mandatory Description position position_3d yes Position in Cartesian (XYZ) coordinates keep创建 my_pos: position_3d with: keep(it.x == 150.0m) keep(it.y == 200.0m) keep(it.z == 0.0m) my_xyz: xyz_point with: keep(it.position == my_pos) create创建 my_xyz: xyz_point = map.create_xyz_point(x: 150.0m, y: 200.0m ,z: 0.0m) 父主题: Struct
  • position_3d 定义:笛卡尔(XYZ)坐标系中的三维位置(position). 用途:设置坐标系中的三维位置,用于构成xyz_point. 参数:参数如下表. 表1 position_3d参数 Parameter Type Mandatory Description x length yes position on the x-axis. y length yes position on the y-axis. z length yes position on the z-axis. 代码样例 my_position: position_3d with: keep(it.x == 150.0m) keep(it.y == 200.0m) keep(it.z == 0.0m) 父主题: Struct
  • catalog 目录catalog可使一些元素得以重复使用,在目录catalog中参数化类型是可维护的,并且可以在场景文件中 被引用仿真器A尚未支持使用catalog. catalog list ENUM_CATA LOG = ("vehicle_catalog", "controller_catalog", "pedestrian_catalog", "misc_object_catalog") vehicle_catalog:场景中可复用的车辆类型列表. controller_catalog:场景中可复用的控制器类型列表. pedestrian_catalog:场景中可复用的行人类型列表. misc_object_catalog:场景中可复用的杂项对象类型列表. 父主题: Enum Lists
  • dynamics_shape 表示给定变量随时间或距离的变化.用于动作change_speed, change_lane. dynamics_shape list ENUM_DYNAMI CS _SHAPE = ("linear", "cubic", "sinusoidal", "step") linear:变化曲线是一个线性linear 函数f(x) = f_0 +变化速率*x. cubic:变化曲线是一个三次变迁Cubical transition 函数f(x)=Ax3+B*x2+Cx+D,约束梯度在开始和结束时必须为零. sinusoidal:变化曲线是一个正弦变迁Sinusoidal transition 函数 f(x)=A*正弦(x)+B,约束梯度在开始和结束时必须为零. step:变化曲线是一个阶段变迁Step transition 函数 父主题: Enum Lists
共100000条