检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在左侧菜单栏中选择“AI专属资源池 > 弹性节点 Server”。 执行如下操作,启动或停止弹性节点Server。 启动弹性节点Server:单击“操作”列的“启动”。只有处于“已停止/停止失败/启动失败”状态的弹性节点Server可以执行启动操作。 停止弹性节点Server:单击“操作”列的“停止”,
启动停止边缘节点服务实例 功能介绍 启动停止边缘节点服务实例。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI PUT /v1/{project_id}/servic
务”、“批量服务”和“边缘服务”。 “启动命令” 选填参数,指定模型的启动命令,您可以自定义该命令。 如果使用预置的AI引擎,如果启动命令没有填写,会使用默认的启动命令,默认的启动命令见表1。如果填写了启动命令,新填写的启动命令覆盖默认启动命令。 说明: 包含字符$,|,>,<,`,
服务启动后,状态断断续续处于“告警中” 问题现象 预测流量不大但频繁出现以下报错 Backend service internal error. Backend service read timed out Send the request from gateway to the
本文介绍三种使用训练作业来启动PyTorch DDP训练的方法及对应代码示例。 使用PyTorch预置框架功能,通过mp.spawn命令启动 使用自定义镜像功能 通过torch.distributed.launch命令启动 通过torch.distributed.run命令启动 创建训练作业
实例重新启动后,Notebook内安装的插件丢失 请使用镜像保存功能。 父主题: VS Code使用技巧
工作流运行页面:单击右上角的“启动”按钮,出现启动Workflow询问弹窗,单击“确定”。 工作流参数配置页面:单击右上角的“启动”按钮,出现启动Workflow询问弹窗,单击“确定”。 启动Workflow后,运行过程中将会按需收费,请关注实例状态,完成后的工作流请及时停止,避免产生不必要的费用。
txt”文件。“代码目录”的结构如下所示: |---模型启动文件所在OBS文件夹 |---model.py #模型启动文件。 |---pip-requirements.txt #定义的配置文件,用于指定依赖包的包名及版本号。 “pip-requirements
服务部署、启动、升级和修改时,镜像不断重启如何处理? 原因分析 容器镜像代码错误 解决方法 根据容器日志进行排查,修复代码,重新创建AI应用,部署服务。 父主题: 服务部署
服务部署、启动、升级和修改时,拉取镜像失败如何处理? 原因分析 节点磁盘不足,镜像大小过大。 解决方法 首先考虑优化镜像,减小节点磁盘的占用。 优化镜像无法解决问题,请联系系统管理员处理。 父主题: 服务部署
当单个节点运行失败时,用户可以通过重试按钮重新执行当前节点,无需重新启动工作流。在当前节点的运行状况页面,单击“重试”。在重试之前您也可以前往权限管理页面修改配置,节点重试启动后新修改的配置信息可以在当前执行中立即生效。 停止 单击指定节点查看详情,可以对运行中的节点进行停止操作。 继续运行
问题现象 启动tensorboard后,打开tensorboard提示502 bad gateway,或者偶现502 bad gateway。 原因分析 出现该问题的可能原因如下: 启动tensorboard对应的summary目录错误,导致tensorboard启动失败。 启动
专属资源池下的在线服务停止后,启动新的在线服务,提示资源不足 停止在线服务后,需要等待几分钟等待资源释放。 父主题: Standard资源池
非必填。默认值为8192。 Step2 启动训练脚本 请根据表1修改超参值后,再启动训练脚本。 单机启动 以GLM3-6B为例,单机训练启动样例命令如下,以自己实际为准。 进入代码目录/home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed下执行启动脚本。xxx-Ascend请根据实际目录替换。
创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及选择上传的镜像。 代码目录选择:OBS桶路径下的 llm_train/AscendSpeed 代码目录。 图1 创建训练作业 若镜像使用使用基础镜像(二选一)中的基础镜像时,训练作业启动命令中输入: cd /home/ma-
创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及选择上传的镜像。 代码目录选择:OBS桶路径下的llm_train/AscendSpeed代码目录。 图1 创建训练作业 如果镜像使用使用基础镜像中的基础镜像时,训练作业启动命令中输入: cd /home/ma-use
创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及选择上传的镜像。 代码目录选择:OBS桶路径下的llm_train/AscendSpeed代码目录。 图1 创建训练作业 如果镜像使用使用基础镜像中的基础镜像时,训练作业启动命令中输入: cd /home/ma-use
创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及选择上传的镜像。 代码目录选择:OBS桶路径下的llm_train/AscendSpeed代码目录。 图1 创建训练作业 如果镜像使用使用基础镜像中的基础镜像时,训练作业启动命令中输入: cd /home/ma-use
创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及选择上传的镜像。 代码目录选择:OBS桶路径下的 llm_train/AscendSpeed 代码目录。 图1 创建训练作业 若镜像使用使用基础镜像(二选一)中的基础镜像时,训练作业启动命令中输入: cd /home/ma-
创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及选择上传的镜像。 代码目录选择:OBS桶路径下的llm_train/AscendSpeed代码目录。 图1 创建训练作业 如果镜像使用使用基础镜像中的基础镜像时,训练作业启动命令中输入: cd /home/ma-use