检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
images查询得到。 --shm-size:表示共享内存,用于多进程间通信。由于需要转换较大内存的模型文件,因此大小要求200g及以上。 修改目录权限,上传代码和数据到宿主机时使用的是root用户,如用ma-user用户训练,此处需要执行如下命令统一文件权限。 #统一文件权限 chmod -R 777
使用MindSpore预置框架训练的device日志会自动上传到OBS,使用其他预置框架和自定义镜像训练的device日志如果需要自动上传到OBS,则需要在代码中配置ASCEND_PROCESS_LOG_PATH,具体请参考如下示例。 # set npu plog env ma_vj_name=`echo
“预标注”。“预标注”表示选择用户模型管理里面的模型,选择模型时需要注意模型类型和数据集的标注类型相匹配。预标注结束后,如果标注结果符合平台定义的标准标注格式,系统将进行难例筛选,该步骤不影响预标注结果。 选择模型及版本 “我的模型”。您可以根据实际需求选择您的模型。您需要在目标模型的左侧单击下拉三角标,选择合适的版本。您的模型导入参见创建模型。
#tokenizer目录,需要用户手动创建,后续操作步骤中会提示 |── Llama2-70B |── model #原始权重与tokenizer目录,需要用户手动创建,后续操作步骤中会提示
images查询得到。 --shm-size:表示共享内存,用于多进程间通信。由于需要转换较大内存的模型文件,因此大小要求200g及以上。 修改目录权限,上传代码和数据到宿主机时使用的是root用户,如用ma-user用户训练,此处需要执行如下命令统一文件权限。 #统一文件权限 chmod -R 777
test-pytorch.py,这里就只需要填写test-pytorch.py。 obs_path:可选参数,一个OBS目录。仅在本地单机调试时不需要该参数,提交远程训练时必选,会将训练脚本压缩并上传到该路径。 准备训练输出,如果用户不需要将训练输出上传到OBS,可以省略这一步。
images查询得到。 --shm-size:表示共享内存,用于多进程间通信。由于需要转换较大内存的模型文件,因此大小要求200g及以上。 修改目录权限,上传代码和数据到宿主机时使用的是root用户,如用ma-user用户训练,此处需要执行如下命令统一文件权限。 #统一文件权限 chmod -R 777
images查询得到。 --shm-size:表示共享内存,用于多进程间通信。由于需要转换较大内存的模型文件,因此大小要求200g及以上。 修改目录权限,上传代码和数据到宿主机时使用的是root用户,如用ma-user用户训练,此处需要执行如下命令统一文件权限。 #统一文件权限 chmod -R 777
images查询得到。 --shm-size:表示共享内存,用于多进程间通信。由于需要转换较大内存的模型文件,因此大小要求200g及以上。 修改目录权限,上传代码和数据到宿主机时使用的是root用户,如用ma-user用户训练,此处需要执行如下命令统一文件权限。 #统一文件权限 chmod -R 777
度>8192,则需要在启动推理服务前添加如下环境变量降低显存占用;否则在长序列的推理中会触发Out of Memory,导致推理服务不可用。 export USE_PREFIX_HIGH_PRECISION_MODE=1 如果需要使用multi-lora特性;需要在推理服务启动命令中额外添加如下命令。
告警,在使用时很容易超过限制,并直接重启Notebook实例。重启后多种配置重置,会导致用户数据丢弃,环境丢失,造成很不好的使用体验。因此需要提供cache盘使用情况的监控和告警,并将数据上报至AOM平台。 配置流程 填写告警基本信息 设置告警规则 监控对象指标配置 告警触发条件设置
在详情页左侧栏中,查看代码目录和启动文件选择是否正确,且OBS文件名称中不能有空格。 代码目录:需要选择到OBS目录。如果选择了文件,会提示非法的OBS路径。 启动文件:需要选择以“.py”结尾的文件。如果选择的文件不是以“.py”结尾,会提示非法的OBS路径。 图2 查看训练作业的代码目录和启动文件
本install.sh。 cd msit/msmodelslim bash install.sh 执行install过程会下载依赖包,因此需要确保能够访问到pip源。 进入到msit/msmodelslim/example/DeepSeek目录,执行转换命令。 BF16权重路径是
pth。 <jpg_path>: 人物图片路径,需要指定到具体的文件,例如 xxx/xxx.jpg。 <audio_path>:音频路径,需要指定到具体的文件,例如 xxx/xxx.mp4。 <output_path>:视频结果输出路径,需要指定到具体的输出文件名,例如 xxx/xxx
errorMessage:None reason:Service Unavailable 如果是client数太多,尤其对于5G以上文件,OBS接口不支持直接调用,需要分多个线程分段复制,目前OBS侧服务端超时时间是30S,可以通过如下设置减少进程数。 # 设置进程数 os.environ['MOX_FI
精度问题根因和表现种类很多,会导致问题定位较为复杂,一般还是需要GPU上充分稳定的网络(包含混合精度)再到NPU上排查精度问题。常见的精度调测手段,包含使用全精度FP32,或者关闭算子融合开关等,先进行排查。对于精度问题,系统工程人员需要对算法原理有较深入的理解,仅从工程角度分析有时候会非
#tokenizer目录,需要用户手动创建,后续操作步骤中会提示 |── Llama2-70B |── models #原始权重与tokenizer目录,需要用户手动创建,后续操作步骤中会提示
ModelArts区域 选择数据集所在的区域,以控制台实际可选值为准。 选择数据集 从下拉列表中选择当前区域中需要发布的目标数据集。 选择版本 选择目标数据集需要发布的版本。 许可证类型 根据业务需求和数据集类型选择合适的许可证类型。 单击许可证类型后面的可以查看许可证详情。
间通信。由于需要转换较大内存的模型文件,因此大小要求200g及以上。 通过容器名称进入容器中。启动容器时默认用户为ma-user用户。 docker exec -it ${container_name} bash 上传代码和数据到宿主机时使用的是root用户,此处需要执行如下命令统一文件属主为ma-user用户。
Standard专属资源池 ModelArts支持使用ECS创建专属资源池吗? 在ModelArts中1个节点的专属资源池,能否部署多个服务? 在ModelArts中公共资源池和专属资源池的区别是什么? ModelArts中的作业为什么一直处于等待中? ModelArts控制台为什么能看到创建失败被删除的专属资源池?