检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ECS中构建新镜像 通过ECS获取和上传基础镜像获取基础镜像后,可通过ECS运行Dockerfile文件,在镜像的基础上构建新镜像。 Step1 构建新ModelArts Standard训练镜像 获取模型软件包,并上传到ECS的目录下(可自定义路径),获取地址参考表1。 解压AscendCloud
ECS中构建新镜像 通过ECS获取和上传基础镜像获取基础镜像后,可通过ECS运行Dockerfile文件,在镜像的基础上构建新镜像。 Step1 构建新ModelArts Standard训练镜像 获取模型软件包,并上传到ECS的目录下(可自定义路径),获取地址参考表1。 解压AscendCloud
使用kv-cache-int8量化 kv-cache-int8是实验特性,在部分场景下性能可能会劣于非量化。当前支持per-tensor静态量化,支持kv-cache-int8量化和FP16、BF16、AWQ、smoothquant的组合。 kv-cache-int8量化支持的模型请参见表
创建训练作业时出现“实例挂卷失败”的事件 问题现象 训练作业的状态一直在“创建中”,查看训练作业的“事件”,有异常信息“实例挂卷失败”,详情为“Unable to mount volumes for pod xxx ... list of unmounted volumes=[nfs-x
查看Standard专属资源池详情 资源池详情页介绍 登录ModelArts管理控制台,在左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”,进入“Standard资源池”列表。 在“Standard资源池”列表页的搜索框中,支持根据资源池的名称、资源池ID、资源池的状态
获取动态挂载OBS实例信息列表 功能介绍 获取动态挂载OBS实例信息列表。 接口约束 暂无约束 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project_id
重试/停止/运行Workflow节点 重试/停止/继续运行Workflow节点 重试 当单个节点运行失败时,用户可以通过重试按钮重新执行当前节点,无需重新启动工作流。在当前节点的运行状况页面,单击“重试”。在重试之前您也可以前往权限管理页面修改配置,节点重试启动后新修改的配置信息可以在当前执行中立即生效
为什么选择不了Ascend Snt3资源? 由于Ascend Snt3资源有限,当资源售罄后,您在部署上线时,无法选择Ascend Snt3资源(公共资源池)进行推理,即在部署页面中,“Ascend: 1* Snt3 (8GB) | ARM: 3 核 6GB”资源为灰色,无法选择。
创建网络资源 功能介绍 创建网络资源。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v1/{project_id}/networks 表1 路径参数 参数
通过运行的实例保存成容器镜像 功能介绍 运行的实例可以保存成容器镜像,保存的镜像中,安装的依赖包(pip包)不丢失,VS Code远程开发场景下,在Server端安装的插件不丢失。 接口约束 暂无约束 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer
查询超参搜索某个trial的结果 功能介绍 根据传入的trial_id,查询指定trial的搜索结果。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/
使用JupyterLab在线开发和调试代码 JupyterLab是一个交互式的开发环境,可以使用它编写Notebook、操作终端、编辑MarkDown文本、打开交互模式、查看csv文件及图片等功能。可以说,JupyterLab是开发者们下一阶段更主流的开发环境。 ModelArts
上传OBS文件到JupyterLab 在Notebook的JupyterLab中,支持将OBS中的文件下载到Notebook。注意:文件大小不能超过10GB,否则会上传失败。 通过JupyterLab打开一个运行中的Notebook。 单击JupyterLab窗口上方导航栏的ModelArts
训练网络迁移总结 确保算法在GPU训练时,持续稳定可收敛。避免在迁移过程中排查可能的算法问题,并且要有好的对比标杆。如果是NPU上全新开发的网络,请参考PyTorch迁移精度调优排查溢出和精度问题。 理解GPU和NPU的构造以及运行的差别,有助于在迁移过程中分析问题并发挥NPU的优势
作业状态参考 作业状态如表1所示。 表1 作业状态 状态值 作业状态说明 0 JOBSTAT_UNKNOWN,作业状态未知。 1 JOBSTAT_INIT,作业初始化状态。 2 JOBSTAT_IMAGE_CREATING,作业镜像正在创建。 3 JOBSTAT_IMAGE_FAILED
系统容器异常退出 问题现象 在训练创建后出现“系统容器异常退出”的故障。 [ModelArts Service Log]2022-10-11 19:18:23,267 - file_io.py[1ine:748] - ERROR: stat:404 errorCode:NoSuchKey
资源池创建失败的原因与解决方法? 本文主要介绍在ModelArts资源池创建失败时,如何查找失败原因,并解决问题。 问题定位 您可以参考以下步骤,查看资源池创建失败的报错信息,并根据相应的解决方法解决问题: 登录ModelArts控制台,单击弹性集群,单击资源池列表上方的“操作记录
获取Workflow工作流节点度量信息 功能介绍 获取Workflow工作流节点的度量信息。 接口约束 无 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2
准备权重 获取对应模型的权重文件,获取链接参考表1。 权重文件下载有如下几种方式,但不仅限于以下方式: 方法一:网页下载:通过单击表格中权重文件获取地址的访问链接,即可在模型主页的Files and Version中下载文件。 方法二:huggingface-cli:huggingface-cli
准备权重 获取对应模型的权重文件,获取链接参考表1。 权重文件下载有如下几种方式,但不仅限于以下方式: 方法一:网页下载:通过单击表格中权重文件获取地址的访问链接,即可在模型主页的Files and Version中下载文件。 方法二:huggingface-cli:huggingface-cli