检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
对于打开的代码文件,单击run按钮,即可执行,可以在下方的Terminal中看到代码输出信息。 如果执行较长时间的训练作业,建议使用nohup命令后台运行,否则SSH窗口关闭或者网络断连会影响正在运行的训练作业,命令参考: nohup your_train_job.sh > output.log 2>&1
服务预测 服务预测失败 服务预测失败,报错APIG.XXXX 在线服务预测报错ModelArts.4206 在线服务预测报错ModelArts.4302 在线服务预测报错ModelArts.4503 在线服务预测报错MR.0105 Method Not Allowed 请求超时返回Timeout
Standard 集群版本:v1.23|v1.25(推荐) 集群规模:50|200|1000|2000 集群网络模式:容器隧道网络|VPC 分布式训练时仅支持容器隧道网络 集群转发模式:iptables|ipvs gpu-beta gpu-driver rdma-sriov-dev-plugin
将模型部署为实时推理作业 实时推理的部署及使用流程 部署模型为在线服务 访问在线服务支持的认证方式 访问在线服务支持的访问通道 访问在线服务支持的传输协议 父主题: 使用ModelArts Standard部署模型并推理预测
false:不删除源文件(默认值) true:删除源文件(注意:此操作可能影响已使用这些文件的数据集版本或其他数据集,导致页面展示异常或者训练/推理异常) samples 否 Array of strings 样本ID列表。 响应参数 状态码: 200 表3 响应Body参数 参数
经查看是由于userdata未执行,可能原因为服务器A制作镜像时没有清理残留目录导致,即: 镜像里面“/var/lib/cloud/instances”残留了制作镜像机器(后面称模板机)的实例ID信息,如果制作镜像不清理“/var/lib/cloud/*”就会导致用该镜像再重装模板机时,cloud-init
Array of strings 资源池支持的作业类型。用户创建标准资源池时至少选择一种,物理资源池支持全部选择。可选值如下: Train:训练作业 Infer:推理作业 Notebook:Notebook作业 resources 是 Array of PoolResourceFlavor
String 镜像支持服务类型。枚举值如下: COMMON:通用镜像。 INFERENCE: 建议仅在推理部署场景使用。 TRAIN: 建议仅在训练任务场景使用。 DEV: 建议仅在开发调测场景使用。 UNKNOWN: 未明确设置的镜像支持的服务类型。 services 否 Array
特定作业类型统计信息。 表4 WorkloadStatistics 参数 参数类型 描述 type String 作业类型。可选值如下: train:训练作业 infer:推理作业 notebook:Notebook作业 total Integer 作业个数。 status status object
String 镜像支持服务类型。枚举值如下: COMMON:通用镜像。 INFERENCE: 建议仅在推理部署场景使用。 TRAIN: 建议仅在训练任务场景使用。 DEV: 建议仅在开发调测场景使用。 UNKNOWN: 未明确设置的镜像支持的服务类型。 sort_dir 否 String
使用大模型在ModelArts Standard创建模型部署在线服务 第三方推理框架迁移到ModelArts Standard推理自定义引擎 ModelArts Standard推理服务支持VPC直连的高速访问通道配置 ModelArts Standard的WebSocket在线服务全流程开发 从0-1制作自定义镜像并创建模型
WorkflowParameter objects 参数。 表3 DataRequirement 参数 是否必选 参数类型 描述 name 是 String 训练数据的名称。填写1-64位,仅包含英文、数字、下划线(_)和中划线(-),并且以英文开头的名称。 type 是 String 数据来源类型。枚举值如下:
式的业务场景: 稳定业务需求:对于长期运行且资源需求相对稳定的业务,例如大模型训练单任务运行时间较长的场景,包年/包月计费模式能提供较高的成本效益。 长期项目:对于周期较长的项目,例如科研类的模型训练,包年/包月计费模式可以确保在整个项目周期内资源的稳定使用。 约束限制 包年/包
of strings 子图step成员。 表12 DataRequirement 参数 是否必选 参数类型 描述 name 是 String 训练数据的名称。填写1-64位,仅包含英文、数字、下划线(_)和中划线(-),并且以英文开头的名称。 type 是 String 数据来源类型。枚举值如下:
PoolSpecUpdate 参数 是否必选 参数类型 描述 scope 否 Array of strings 更新启用的作业类型。可选值如下: Train:训练作业 Infer:推理作业 Notebook:Notebook作业 resources 否 Array of resources objects
“关联sfsturbo”用于将此网络与某个选定的SFS Turbo资源做关联操作,关联完成后,表示SFS Turbo与网络已进行打通,可在训练和开发环境等功能时使用此SFS Turbo。 关联与解除关联操作需要用户委托授权ModelArts云服务操作SFS Turbo的部分权限。
ken的值)。 表3 请求Body参数 参数 是否必选 参数类型 描述 grants 否 Array of grants objects 训练作业使用的数据集。不可与data_url或dataset_id/dataset_version_id同时使用。 auth_type 否 String
删除Workflow工作流 查询Workflow工作流 修改Workflow工作流 总览Workflow工作流 查询Workflow待办事项 在线服务鉴权 创建在线服务包 获取Execution列表 新建Workflow Execution 删除Workflow Execution 查询Workflow
动态挂载适用于哪些使用场景 场景1:数据集预览和操作,将承载数据集的OBS挂载至Notebook中,可以像本地文件系统一样操作数据集。 场景2:在Notebook中训练时,可直接使用挂载至Notebook容器中的数据集。 动态挂载OBS并行文件系统有什么限制 OBS提供两种桶,对象存储(对象桶)和并行文件系统PFS。
表5 Monitor 参数 参数类型 描述 failed_times Integer 模型实例调用失败次数,在线服务字段。 model_version String 模型版本,在线服务字段。 cpu_memory_total Integer 总内存,单位MB。 gpu_usage Float