检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
cat <<EOF > /usr/lib/systemd/system/buildkitd.service [Unit] Description=buildkitd After=network.target [Service] ExecStart=/usr/local/buildkit
/scripts/obs_pipeline.sh 如果镜像使用ECS中构建新镜像构建的新镜像时,训练作业启动命令中输入: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh .
文档准备镜像步骤中,仅提供:直接使用基础镜像方案、ECS中构建新镜像方案,删除使用Notebook创建镜像方案。 文档中新增对 llama3 支持长序列文本(sequence_length > 32k)训练内容,例如新增参数context-parallel-size。
在AOM控制台查看ModelArts所有监控指标 ModelArts会定期收集资源池中各节点的关键资源(GPU、NPU、CPU、Memory等)的使用情况以及开发环境、训练作业、推理服务的关键资源的使用情况,并上报到AOM,用户可直接在AOM上查看,详细步骤如下: 登录控制台,搜索
使用AOM看Lite Cluster监控指标 监控已有指标 ModelArts会定期收集资源池中各节点的关键资源(GPU、NPU、CPU、Memory等)的使用情况并上报到AOM,用户可直接在AOM上查看默认配置好的基础指标,详细步骤如下: 登录控制台,搜索AOM,进入“应用运维管理
/scripts/obs_pipeline.sh 如果镜像使用ECS中构建新镜像构建的新镜像时,训练作业启动命令中输入: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh .
/scripts/obs_pipeline.sh 如果镜像使用ECS中构建新镜像构建的新镜像时,训练作业启动命令中输入: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh .
模型训练使用流程 AI模型开发的过程,称之为Modeling,一般包含两个阶段: 开发阶段:准备并配置环境,调试代码,使代码能够开始进行深度学习训练,推荐在ModelArts开发环境中调试。 实验阶段:调整数据集、调整超参等,通过多轮实验,训练出理想的模型,推荐在ModelArts
本地存储 重型训练任务首选 运行所在虚拟机或者裸金属机器上自带的SSD高性能存储,文件读写的吞吐量大,建议对于重型训练任务先将数据准备到对应目录再启动训练。
常见问题 模型转换失败怎么办? 常见的模型转换失败原因可以通过查询转换失败错误码来确认具体导失败的原因,Stable Diffusion新推出的模型在转换中可能会遇到算子不支持的问题,可以到华为云管理页面上提交工单来寻求帮助。 图片大Shape性能劣化严重怎么办? 在昇腾设备上,可能由于
准备镜像 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest
├──opencompass.sh #运行opencompass脚本 ├──install.sh #安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器
准备镜像 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest
为云服务器、云容器、云数据库等资源构建隔离的、用户自主配置和管理的虚拟网络环境,提升用户资源的安全性,简化用户的网络部署。 登录ModelArts管理控制台,在左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”,默认进入“资源池”页面。
├──opencompass.sh #运行opencompass脚本 ├──install.sh #安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器
确认对应的脚本、代码、流程在linux服务器上运行正常。 如果在linux服务器上运行就有问题,那么先调通以后再做容器镜像。 确认打入镜像的文件是否在正确的位置、是否有正确的权限。
数据集图片无法显示,如何解决? 问题现象 创建的数据集,在进行标注时无法显示图片,单击单张图片也无法查看。或者数据集中提示图片加载异常。 原因分析 可能由于用户本地网络原因,无法正常访问OBS导致图片无法正常加载。 可能由于没有OBS桶的访问权限导致,请检查数据集输入位置所在的OBS
准备镜像 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest
准备镜像 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest
您可以准备相同规格的弹性云服务器ECS或者应用本地已有的主机进行自定义镜像的制作。 购买ECS服务器的具体操作请参考购买并登录Linux弹性云服务器。“CPU架构”选择“x86计算”,“镜像”选择“公共镜像”,推荐使用Ubuntu18.04的镜像。 安装Docker。