检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
部署在线服务时,您可以选择性能更好的“实例规格”提高预测速度。例如使用GPU资源代替CPU资源。 部署在线服务时,您可以增加“实例数”。 如果实例数设置为1,表示后台的计算模式是单机模式;如果实例数设置大于1,表示后台的计算模式为分布式的。您可以根据实际需求进行选择。 推理速
spec 作业使用的资源规格相关配置 是 JobSpec inputs 作业节点的输入列表 是 JobInput或者JobInput的列表 outputs 作业节点的输出列表 是 JobOutput或者JobOutput的列表 title title信息,主要用于前端的名称展示 否 str
volumes=[nfs-x]”。 原因分析 用户账号下的SFS Turbo所在的VPC网络需要与专属资源池所在的网络打通,运行于该专属资源池的训练作业才能正常挂载SFS。因此,当训练作业挂载SFS失败时,可能是网络不通导致的。 处理步骤 进入训练作业详情页,在左侧获取SFS Turbo的名称。 图1 获取SFS
ModelArts中的作业为什么一直处于等待中? 当前训练任务排队的逻辑是先进先出,前面的任务没运行完后面的任务不会运行,有可能会造成小任务被“饿死”,需要用户注意。 饿死指的是前面的任务被一个大的任务堵着(例如是64卡),需要等空闲64卡这个任务才能运行,64卡的任务后面跟着1卡的。即使现
镜像中可能存在的问题。 表10 参数说明 参数名 参数类型 是否必选 参数说明 -swr / --swr-path String 是 需要调试的镜像的SWR路径。 -r / --region String 是 需要调试的镜像所在的区域。 -s / --service String
在ModelArts的Notebook中JupyterLab的目录、Terminal的文件和OBS的文件之间的关系是什么? JupyterLab目录的文件与Terminal中work目录下的文件相同。即用户在Notebook中新建的,或者是从OBS目录中同步的文件。 挂载OBS存储的Note
场景说明 针对ModelArts目前不支持的AI引擎,您可以通过自定义镜像的方式将编写的模型导入ModelArts,创建为模型。 本文详细介绍如何在ModelArts的开发环境Notebook中使用基础镜像构建一个新的推理镜像,并完成模型的创建,部署为在线服务。本案例仅适用于华为云北京四和上海一站点。
nvidia.com/gpu String GPU节点的GPU资源量。 huawei.com/ascend-snt3 String 昇腾节点的NPU资源量。 huawei.com/ascend-snt9 String 昇腾节点的NPU资源量。 状态码:404 表10 响应Body参数
运行中”时,单击“操作”列中的“打开”,进入“JupyterLab Notebook”开发页面。 在JupyterLab的“Launcher”页签下,以TensorFlow为例,您可以单击TensorFlow,创建一个用于编码的文件。 图1 选择不同的AI引擎 文件创建完成后,系
行多轮作业从而选择最理想的作业,模型训练支持统一管理多个训练作业,方便用户选择最优的模型 提供训练作业的事件信息(训练作业生命周期中的关键事件点)、训练日志(训练作业运行过程和异常信息)、资源监控(资源使用率数据)、Cloud Shell(登录训练容器的工具)等能力,方便用户更清
不同机型的对应的软件配套版本 由于弹性集群资源池可选择弹性裸金属或弹性云服务器作为节点资源,不同机型的节点对应的操作系统、适用的CCE集群版本等不相同,为了便于您制作镜像、升级软件等操作,本文对不同机型对应的软件配套版本做了详细介绍。 裸金属服务器的对应的软件配套版本 表1 裸金属服务器
在ModelArts Studio控制台的“模型部署”页面,选择“我的服务”页签,在“service-1122”服务右侧,单击操作列的“更多 > 删除”,在弹窗中输入“DELETE”,单击“确定”,删除服务。 在ModelArts Studio控制台的“我的模型”页面,在“Qwen2-7B”模型右侧,单击操作列的“更多
处理后删除的图片数量。 description String 数据处理任务的版本描述。 duration_seconds Integer 数据处理任务的运行时间,单位秒。 inputs Array of ProcessorDataSource objects 数据处理任务的输入通道。
String 服务器所属的超节点资源id。 表9 Endpoints 参数 参数类型 描述 allowed_access_ips Array of strings 允许通过SSH协议访问Notebook的公网IP地址白名单列表,默认都可以访问。当配置指定IP后,则仅允许IP所在的客户端实现对Notebook的访问。
删除maos-node-agent的pod(重启pod)。 CCE页面上删除节点上的污点A200008。 ModelArts上重置节点。 CCE页面上配置中心修改默认调度器为volcano。 该方案的缺点:后续对ModelArts的节点做相关操作如重置、升级驱动等可能会出现节点异常无法启动的情况。 父主题:
单个节点的资源释放。 如果想批量删除节点,勾选待删除节点名称前的复选框,然后单击名称上方的“删除”,在文本框中输入“DELETE”,单击“确定”,确认删除,即可实现对多个节点的资源释放。 如果是“包年/包月”且资源未到期的资源池,您可单击操作列的“退订”,即可实现对节点的资源释放。支持批量退订节点。
outputs 节点的输出列表 否 AbstractOutput或者list[AbstractOutput] properties 节点的属性信息 否 dict policy 节点的执行策略,主要包含节点调度运行的时间间隔、节点执行的超时时间、以及节点执行是否跳过的相关配置 否 StepPolicy
[Errno xx] Broken pipe”。 原因分析 出现该问题的可能原因如下: 在大规模分布式作业上,每个节点都在复制同一个桶的文件,导致OBS桶限流。 OBS Client连接数过多,进程/线程之间的轮询,导致一个OBS Client与服务端连接30S内无响应,超过超时时间,服务端断开了连接。
/etc/profile # 注意这里的echo 要使用单引号,单引号会原样输出,双引号会解析变量 source /etc/profile # 使刚才配置生效 创建buildkitd的启动服务。其中都是buildkitd.service的内容。复制以下全部命令并运行即可。 cat
ModelStep的输出 depend_steps=[job_step_1, job_step_2] # 依赖的作业类型节点对象 )# job_step是wf.steps.JobStep的 实例对象,train_url是wf.steps.JobOutput的name字段值