检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ModelArts训练中不同规格资源“/cache”目录的大小是多少? ModelArts训练作业为什么存在/work和/ma-user两种超参目录? 如何查看ModelArts训练作业资源占用情况? 如何将在ModelArts中训练好的模型下载或迁移到其他账号?
若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod,需要先找到config
predictor configs结构 参数 是否必选 参数类型 描述 model_id 是 String 模型ID。“model_id”可以通过查询模型列表或者ModelArts管理控制台获取。 weight 是 Integer 权重百分比,分配到此模型的流量权重,部署本地服务Predictor时,取值100。
initialize NVML: Driver/library version mismatch 处理方法 执行命令:lsmod | grep nvidia,查看内核中是否残留旧版nvidia,显示如下: nvidia_uvm 634880 8 nvidia_drm
若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导(6.3.911)
在扩缩容页面,根据业务需要增删模型服务的实例数,配置完成后,单击“确认”提交扩缩容任务。 在我的服务列表,单击服务名称,进入服务详情页,可以查看修改后的实例数是否生效。 父主题: 管理我的服务
权限,并查看相应的资源使用情况等。 时间安排:围绕子流水线配置相应的子任务安排,并加以通知机制,实现流程执行过程之间配合的运转高效管理。 流程质量与效率测评:提供流水线的任务执行过程视图,增加不同的检查点,如数据评估、模型评估、性能评估等,让AI项目管理者能很方便的查看流水线执行过程的质量与效率。
一华为云账号将其OBS桶权限授予其他华为云账号。如果您的账号是IAM用户或其他场景时,请参见《OBS权限配置指南 》> 典型场景配置案例,查找授予OBS桶权限的指导。 获得OBS桶的读写权限后,您可以在Notebook中,使用moxing接口,访问对应的OBS桶,并读取数据。举例如下:
若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导(6.3.909)
登录ModelArts管理控制台,在左侧菜单栏中选择“AI专属资源池 > 弹性集群 Cluster”,在“弹性集群”页面,选择“Lite资源池”页签,查看资源池列表。 进入资源池详情页,在节点管理页面,选择需要进行驱动升级的节点,单击操作列的“更多 > 驱动升级”。 在“驱动升级”弹窗中,会
若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod,需要先找到config
若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod,需要先找到config
部署为在线服务 部署为批量服务 访问服务 服务部署完成后,针对在线服务和边缘服务,您可以访问并使用服务,针对批量服务,您可以查看其预测结果。 访问在线服务 查看批量服务预测结果
解决方案。 3 配置Lite Server软件环境 不同镜像中预安装的软件不同,您通过Lite Server算力资源和镜像版本配套关系章节查看已安装的软件。当Server服务器中预装的软件无法满足业务需求时,您可在Server服务器中配置所需要的软件环境。 父主题: Lite Server资源配置
新安装的包与镜像中带的CUDA版本不匹配。 处理方法 必现的问题,使用本地Pycharm远程连接Notebook调试安装。 先远程登录到所选的镜像,使用“nvcc -V”查看目前镜像自带的CUDA版本。 重装torch等,需要注意选择与上一步版本相匹配的版本。 建议与总结 在创建训练作业前,推荐您先使用Mode
添加所有者:在同一窗口中,单击“添加”,在弹出的新窗口中,单击“主体”后面的“选择主体”,弹出“选择用户,计算机,服务账户或组”窗口,单击“高级”,输入用户名, 单击“立即查找”按钮,显示用户搜索结果列表。 选择您的用户账户,然后单击“确定”(大约四个窗口)以关闭所有窗口。 图1 添加所有者 完成所有操作后,再次关闭并打开VS
时,资源池才能下发任务。 可以将鼠标放在“创建中”字样上,查看当前创建过程详情。若单击查看详情,可跳转到“操作记录”中。 可以在Lite资源池列表右上角的“操作记录”中查看资源池的任务记录。 图9 操作记录 图10 查看操作记录 当资源池创建成功后,资源池的状态会变成“运行中”。
视化作业流程 Step1 创建开发环境并在线打开 Step2 上传Summary数据 Step3 启动TensorBoard Step4 查看训练看板中的可视化数据 Step1 创建开发环境并在线打开 在ModelArts控制台,进入“开发空间 > Notebook”页面,创建T
选择模型服务,单击操作列的“更多 > 设置QPS”,在弹窗中修改数值,单击“提交”启动修改任务。 图1 修改QPS 在我的服务列表,单击服务名称,进入服务详情页,可以查看修改后的QPS是否生效。 父主题: 管理我的服务
针对启用团队标注功能的数据标注任务,支持创建团队标注任务,将标注任务指派给不同的团队,由多人完成标注任务。同时,在成员进行数据标注过程中,支持发起验收、继续验收以及查看验收报告等功能。 团队标注功能是以团队为单位进行管理,数据集启用团队标注功能时,必须指定一个团队。一个团队可以添加多个成员。 一个账号最多可添加10个团队。