检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
911版本,请参考获取配套版本的软件包和镜像,请严格遵照版本配套关系使用本文档。 确保容器可以访问公网。 资源规格要求 推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。 获取软件和镜像 表1 获取软件和镜像 分类 名称 获取路径 插件代码包
WorkflowStep 参数 参数类型 描述 name String Workflow工作流节点的名称,在一个DAG中唯一,1到64位只包含中英文,数字,空格,下划线(_)和中划线(-),并且以中英文开头。 type String 节点的类型,枚举值如下: job 训练 labeling
/v2/{project_id}/pools 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 workspaceId 否 String 工作空间ID。获取方法请参见查询工作
英文逗号、换行符等特殊字符,不支持引号语法,建议尽量以字母及数字字符组成。 训练数据:训练数据列数一致,总数据量不少于100条不同数据(有一个特征取值不同,即视为不同数据)。训练数据列内容不能有时间戳格式(如:yy-mm-dd、yyyy-mm-dd等)的数据。确保指定标签列的取值
是否必选 参数类型 描述 id 是 String 镜像ID。 project_id 是 String 用户项目ID,获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 force 否 Boolean 删除在SWR的镜像内容,仅对于个人私有镜像有效。
/v1/{project_id}/images 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID,获取方法请参见获取项目ID和名称。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 arch 否 String 该镜像所支持处理器架构类型,默认值X86_64。枚举值:
Cluster。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。 支持的模型列表和权重文件 本方案支持vLLM的v0.6.0版本。不同vLLM版本支持的模型列表有差异,具体如表1所示。 表1 支持的模型列表和权重获取地址 序号 模型名称 是否支持fp16/bf16推理
Cluster。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。 支持的模型列表和权重文件 本方案支持vLLM的v0.6.0版本。不同vLLM版本支持的模型列表有差异,具体如表1所示。 表1 支持的模型列表和权重获取地址 序号 模型名称 是否支持fp16/bf16推理
running:运行中,服务正常运行。 deploying:部署中,服务正在部署,包含打镜像和调度资源部署。 concerning:告警,后端实例部分存在异常。 failed:失败,服务部署失败,失败原因可以看事件和日志标签页。 stopped:停止。 finished:只有批量服务会有这个状态,表示运行完成。
Cluster。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。 支持的模型列表和权重文件 本方案支持vLLM的v0.6.3版本。不同vLLM版本支持的模型列表有差异,具体如表1所示。 表1 支持的模型列表和权重获取地址 序号 模型名称 是否支持fp16/bf16推理
是否必选 参数类型 描述 id 是 String 镜像ID。 project_id 是 String 用户项目ID,获取方法请参见获取项目ID和名称。 请求参数 无 响应参数 状态码: 200 表2 响应Body参数 参数 参数类型 描述 arch String 该镜像所支持处理器架构类型。枚举值如下:
用户项目ID,获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 limit 否 Integer 每一页的数量,默认值200。 name 否 String 镜像名称,长度限制512个字符,支持小写字母、数字、中划线、下划线和点。 name_fuzzy_match
参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 表2 查询检索参数 参数 是否必选 参数类型 说明 status 否 String 作业状态的查询,默认为所有状态,例如查看创建失败
拉取镜像失败 服务启动失败,提示拉取镜像失败,请参考服务部署、启动、升级和修改时,拉取镜像失败如何处理? 资源不足,服务调度失败 服务启动失败,提示资源不足,服务调度失败,请参考服务部署、启动、升级和修改时,资源不足如何处理? 内存不足 服务启动失败,提示内存不足,请参考内存不足如何处理?
执行记录使用到的执行策略。 表5 StepExecution 参数 参数类型 描述 step_name String 节点的名称,在一个DAG中唯一,1到64位只包含中英文,数字,空格,下划线(_)和中划线(-),并且以中英文开头。 uuid String 唯一标识uuid。创建节点执行时,后台自动生成。
用内存,导致磁盘空间不足。 磁盘配额不足。 处理方法 查看虚拟机所使用的存储空间,再查看回收站文件占用内存,根据实际删除回收站里不需要的大文件。 在Notebook实例详情页,查看实例的存储容量。 执行如下命令,排查虚拟机所使用的存储空间,一般接近存储容量,请排查回收站占用内存。
准备镜像 镜像方案说明 ECS获取基础镜像 ECS中构建新镜像 ECS中上传新镜像 父主题: 准备工作
Numpy等,常用的工具软件,例如cuda,cudnn等,满足AI开发常用需求。 预置Conda环境:每个预置镜像都会创建一个相对应的Conda环境和一个基础Conda环境python(不包含任何AI引擎),如预置MindSpore所对应的Conda环境如下。 用户可以根据是否
数值计算结果通常会有差异,比如GPU和CPU之间,GPU各版本之间,数值计算结果都有一定差异,在特定的容限范围内,不会影响模型的最终收敛。所以,计算的数值差异是很常规的现象,并非错误。 为了更好地了解这种计算差异,并且能够正确区分正常计算差异和引起模型精度问题的异常差异,本指南提
准备镜像 镜像方案说明 ECS获取基础镜像 ECS中构建新镜像 ECS中上传新镜像 父主题: 准备工作