检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
果您是卖家则需要完成实名认证并进行华为云云商店入驻。 如果您是卖家,您可以在云商店查看自己售卖的商品是否上架成功。在云商店右上方单击“卖家中心 > 进入卖家中心”,选择“商品管理 > 我的商品”查看在售卖的商品。 如果您是买家,您可以在云商店搜索、购买商品,已经购买的商品将展示在“云商店
redentials.csv”,可打开文件查看访问密钥(Access Key Id和Secret Access Key)。 “project_id”即项目ID,获取方式如下: 在“我的凭证”页面,单击“API凭证”,在“项目列表”中可查看项目ID和名称(即“项目”)。多项目时,展
标注是否完成,用户在数据标注节点单击“实例详情”前往数据集页面查看该数据集是否已完成标注。 未完成标注:在数据标注详情页,单击选择“未标注”页签,完成标注。 已完成标注:返回工作流页面,单击“继续运行”。 图4 查看实例详情 图5 继续运行 当工作流运行至服务部署节点,状态为“等
在开发环境中创建TensorBoard可视化作业流程 步骤一:创建开发环境并在线打开 步骤二:上传Summary数据 步骤三:启动TensorBoard 步骤四:查看看板中的可视化数据 步骤一:创建开发环境并在线打开 在ModelArts控制台,进入“开发空间 > Notebook”页面,创建Tenso
predictor configs结构 参数 是否必选 参数类型 描述 model_id 是 String 模型ID。“model_id”可以通过查询模型列表或者ModelArts管理控制台获取。 weight 是 Integer 权重百分比,分配到此模型的流量权重,部署本地服务Predictor时,取值100。
app名称。 app_remark 否 String app备注。 workspace_id 否 String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 响应参数 状态码:200 表4 响应Body参数
initialize NVML: Driver/library version mismatch 处理方法 执行命令:lsmod | grep nvidia,查看内核中是否残留旧版nvidia,显示如下: nvidia_uvm 634880 8 nvidia_drm
建。 “策略配置方式”:选择可视化视图或者JSON视图均可。 “策略内容”:拒绝,云服务中搜索“ModelArts”服务并选中,“操作”中查找写操作“modelarts:trainJob:create”、“modelarts:notebook:create”和“modelarts
5-32B 20~30分钟 2小时 查看压缩作业信息 登录ModelArts Studio控制台,在顶部导航栏选择目标区域。 在左侧导航栏,选择“模型压缩”进入作业列表。 单击作业名称,进入压缩作业详情页面,可以查看作业详情和日志。 “详情”:可以查看作业的基本信息,包括作业、模型、资源等设置信息。
若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导(6.3.911)
如果重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导(6.3.910)
在共享页签,单击“共享镜像”,在新窗口中输入共享的账号名称等,单击“确定”。 用户A的操作: 登录容器镜像服务控制台,在“我的镜像>他人共享”页签下,查看用户B共享的镜像,单击镜像名称进入镜像详情。 按照“Pull/Push指南”页签提供的操作方法,将用户B共享的镜像Pull下来,即作为自有镜像。
一华为云账号将其OBS桶权限授予其他华为云账号。如果您的账号是IAM用户或其他场景时,请参见《OBS权限配置指南 》> 典型场景配置案例,查找授予OBS桶权限的指导。 获得OBS桶的读写权限后,您可以在Notebook中,使用moxing接口,访问对应的OBS桶,并读取数据。举例如下:
若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导(6.3.909)
e/finetune_ds.sh 的脚本,开始训练。 在训练中,程序会自动执行对数据集预处理、权重转换、执行训练等操作,具体可通过查看日志和性能查看日志和性能、训练脚本说明 了解其中的操作。 训练完成后在SFS Turbo中保存训练的模型结果。(多机情况下,只有在rank_0节点
登录ModelArts管理控制台,在左侧菜单栏中选择“AI专属资源池 > 弹性集群 Cluster”,在“弹性集群”页面,选择“Lite资源池”页签,查看资源池列表。 进入资源池详情页,在节点管理页面,选择需要进行驱动升级的节点,单击操作列的“更多 > 驱动升级”。 在“驱动升级”弹窗中,会
若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod,需要先找到config
若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod,需要先找到config
部署为在线服务 部署为批量服务 访问服务 服务部署完成后,针对在线服务和边缘服务,您可以访问并使用服务,针对批量服务,您可以查看其预测结果。 访问在线服务 查看批量服务预测结果
ModelArts训练中不同规格资源“/cache”目录的大小是多少? ModelArts训练作业为什么存在/work和/ma-user两种超参目录? 如何查看ModelArts训练作业资源占用情况? 如何将在ModelArts中训练好的模型下载或迁移到其他账号?