检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
和推理评测代码。代码包具体说明请参见模型软件包结构说明。 AscendFactory是用于模型并行计算的框架,其中包含了许多模型的输入处理方法。 获取路径:Support-E,在此路径中查找下载ModelArts 6.3.912 版本。 说明: 如果上述软件获取路径打开后未显示相
ool_name}/nodes 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 pool_name 是 String 资源池名称。 nodepool_name 是 String 节点池名称。
ool_name}/nodes 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 pool_name 是 String 资源池名称。 表2 Query参数 参数 是否必选 参数类型 描述 continue
请确保每台机器都能访问到西南-贵阳一SWR镜像仓库。 约束限制 脚本中的镜像是在西南-贵阳一区域,建议在西南-贵阳一区域上部署推理服务。 脚本默认只支持在标准的欧拉或HCE 2.0操作系统上执行。 步骤一:检查环境 SSH登录机器后,检查NPU设备检查。如果驱动版本不是24.1.0,请先升级驱动和对应固件。
/v1/{project_id}/workspaces 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String
/v1/{project_id}/events 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 resource 是 String 事件所属资源类型。可选值为pools,表示资源池。
行推理业务,2张卡运行的情况下,推荐的最大序列max-model-len长度最大是16K,此处的单位K是1024,即16*1024。 测试方法:gpu-memory-utilization为0.9下,以4k、8k、16k递增max-model-len,直至达到能执行静态bench
行推理业务,2张卡运行的情况下,推荐的最大序列max-model-len长度最大是16K,此处的单位K是1024,即16*1024。 测试方法:gpu-memory-utilization为0.9下,以4k、8k、16k递增max-model-len,直至达到能执行静态bench
行推理业务,2张卡运行的情况下,推荐的最大序列max-model-len长度最大是16K,此处的单位K是1024,即16*1024。 测试方法:gpu-memory-utilization为0.9下,以4k、8k、16k递增max-model-len,直至达到能执行静态bench
服务使用的是专属资源池 从训练中选择元模型 不支持 不支持 从容器镜像中选择元模型 不支持 支持,创建模型的自定义镜像需要满足创建模型的自定义镜像规范。 从OBS中选择元模型 不支持 不支持 方式一:通过服务管理页面修改服务信息 登录ModelArts管理控制台,在左侧菜单栏中选择“模型部署”,进入目标服务类型管理页面。
面上,单击“查看所有”,可以看到IAM项目下所有子账号创建的Notebook实例 。配置该权限后,也可以在Notebook中访问子账号的OBS、SWR等。 使用主用户账号登录ModelArts管理控制台,单击右上角用户名,在下拉框中选择“统一身份认证”,进入统一身份认证(IAM)服务。
自定义设置运行平台的资产标签,且标签可以被一起同步至运行平台。 数据集描述 - 资产的README内容,支持添加资产的简介、使用场景、使用方法等信息。 编辑完成后,单击“确认”保存修改。 管理数据集文件 预览文件 在数据集详情页,选择“数据集文件”页签。单击文件名称即可在线预览文件内容。
行推理业务,2张卡运行的情况下,推荐的最大序列max-model-len长度最大是16K,此处的单位K是1024,即16*1024。 测试方法:gpu-memory-utilization为0.9下,以4k、8k、16k递增max-model-len,直至达到能执行静态bench
es/worker-tasks 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 limit 否 Integer 指定每一页返回的最大条目数,取值范围[1
{nodepool_name} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 pool_name 是 String 资源池名称。 nodepool_name 是 String 节点池名称。
name}/nodepools 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 pool_name 是 String 资源池名称。 请求参数 无 响应参数 状态码:200 表2 响应Body参数
是否必选 参数类型 描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workforce_task_id 是 String 团队标注任务ID。 表2 Query参数 参数 是否必选
engine-runtimes 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID。 表2 Query参数 参数 是否必选 参数类型 描述 limit 否 String 每页显示的条目数量。 offset
/v2/{project_id}/algorithms 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 metadata 否 AlgorithmMetadata
是否必选 参数类型 描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 offset 否 Integer 分页列表的起始页,默认为0。