检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
开发者可以通过Workflow进行有向无环图(Directed Acyclic Graph,DAG)的开发,整个DAG的执行就是有序的任务执行模板,依次执行从数据标注、数据集版本发布、模型训练、模型注册到服务部署环节。
─llm_inference # 推理代码包 |──llm_tools # 推理工具 代码上传至SFS Turbo 将AscendSpeed代码包AscendCloud-LLM-xxx.zip直接上传至ECS服务器中的
由于后台会自动将代码目录下载至容器的“/home/work/user-job-dir/”目录下,因此您可以在启动文件“test.py”中通过如下方式调用“.sh”文件: import os os.system('bash /home/work/user-job-dir/code/test.sh
pip install diffusers==0.21.2 Step6 启动训练服务 执行如下命令启动训练脚本diffusers_lora_train.sh。
可选值如下: train:训练作业 infer:推理服务 notebook:Notebook作业 status 否 String 作业状态。
─llm_inference # 推理代码包 |──llm_tools # 推理工具 代码上传至SFS Turbo 将AscendSpeed代码包AscendCloud-LLM-xxx.zip直接上传至ECS服务器中的
─llm_inference # 推理代码包 |──llm_tools # 推理工具 代码上传至SFS Turbo 将AscendSpeed代码包AscendCloud-LLM-xxx.zip直接上传至ECS服务器中的
如果用户使用的访问机器和华为云ModelArts服务的网络有隔离,则访问机器的外网地址需要在主流搜索引擎中搜索“IP地址查询”获取,而不是使用ipconfig或ifconfig/ip命令在本地查询。 图4 查询外网IP地址 父主题: 管理Notebook实例
系统预置了卡死检测的环境变量“MA_HANG_DETECT_TIME=30”,表示30分钟内进程IO无变化则判定作业卡死。如果需要修改卡死检测时间,则可以修改环境变量“MA_HANG_DETECT_TIME”的值,具体操作指导请参见管理训练容器环境变量。
image_address String 模型的执行镜像地址,镜像未构建之前(即当前模型从未发布成服务),显示为空。
准备Notebook 本案例需要创建一个Notebook,以便能够通过它访问SFS Turbo服务。随后,通过Notebook将OBS中的数据上传至SFS Turbo,并对存储在SFS Turbo中的数据执行编辑操作。
复制生成的Token到编译构建服务即可。 Token生成后,请及时保存,下次刷新页面将无法读取,需要重新生成新Token。 注意填写有效的Token描述信息,避免误删除导致构建失败。 无需使用时及时删除Token,避免信息泄露。
import pandas as pd import moxing as mox mox.file.shift('os', 'mox') # 将os的open操作替换未mox.file.File适配OBS路径的操作 param = {'encoding': 'utf-8'}
当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后,检查NPU卡状态。
当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断点续训练是通过checkpoint机制实现。
其中“版本”信息由系统自动生成,按“V0001”、“V0002”规则命名,用户无法修改。 您可以根据实际情况填写“名称”和“描述”信息。 图1 创建数据处理基本信息 设置场景类别。场景类别当前支持“图像分类”和“物体检测”。
当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断点续训练是通过checkpoint机制实现。
当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图3 开启故障重启 断点续训练是通过checkpoint机制实现。
查看资源池的磁盘规格 在资源池详情页的右上角,单击“更多>扩缩容”,在资源池扩缩容页面可以查看该资源规格中携带的系统盘、容器盘、数据盘的磁盘类型、大小、数量和写入模式、容器引擎空间大小、挂载路径磁盘配置等参数。 父主题: 管理Standard专属资源池
POST /v2/{project_id}/pools/{pool_name}/nodes/batch-reboot { "nodeNames" : [ "os-node-created-vrvrq", "os-node-created-4jczv" ] } 响应示例 状态码