检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备代码 本教程中用到的模型软件包如下表所示,请提前准备好。 软件配套版本 本方案支持的软件配套版本和依赖包获取地址如表1所示。 表1 软件配套版本和获取地址 软件名称 说明 下载地址 AscendCloud-6.3.907-xxx.zip 说明: 软件包名称中的xxx表示时间戳。
initialize NVML 问题现象 华为云裸金属服务器,NVIDIA驱动卸载后重新安装。 (1)已卸载原有版本NVIDIA驱动和CUDA版本,且已安装新版本的NVIDIA驱动和CUDA版本 (2)执行nvidia-smi失败,提示Failed to initialize NVML: Driver/library
例保存为镜像,将准备好的环境保存下来,可以作为自定义镜像,方便后续使用。保存镜像,安装的依赖包不会丢失。安装完依赖包后,推荐保存镜像,避免安装的依赖包丢失。具体操作请参见保存Notebook镜像环境。 父主题: Standard镜像相关
准备镜像 准备大模型推理适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 镜像版本 本教程中用到基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr.cn-southwest-2
三方库的版本一致。 环境版本更新 这一项仅在条件允许的情况下进行,根据精度问题定位经验,部分问题是由于使用了较早版本的昇腾软件版本或者非商用发布的昇腾软件版本,所以推荐在条件允许的前提下配套安装最新商发版本的昇腾开发套件CANN Toolkit、昇腾驱动以及torch_npu包。
训练作业的监控内存指标持续升高直至作业失败 问题现象 训练作业的“状态”为“运行失败”。 原因分析 训练作业的监控内存指标持续升高,导致最后训练作业失败。 处理步骤 查询训练作业的日志和监控信息,是否存在明确的OOM报错信息。 是,训练作业的日志里存在OOM报错,执行2。 否,训
如果只是Cell的执行过程卡死或执行时间过长,如图1中的第2个和第3个Cell,导致第4个Cell无法执行,但整个Notebook页面还有反应,其他Cell也还可以单击,则直接单击下图中红色方框处的“interrupt the kernel”,停止所有Cell的执行,同时会保留当前Notebook中的所有变量空间。
原因分析 因为编译的时候需要设置setup.py中编译的参数arch和code和电脑的显卡匹配。 解决方法 对于GP Vnt1的显卡,GPU算力为-gencode arch=compute_70,code=[sm_70,compute_70],设置setup.py中的编译参数即可解决。
使用Windows下生成的文本文件时报错找不到路径? 问题现象 当在Notebook中使用Windows下生成的文本文件时,文本内容无法正确读取,可能报错找不到路径。 原因分析 Notebook是Linux环境,和Windows环境下的换行格式不同,Windows下是CRLF,而Linux下是LF。
构建Workflow多分支运行场景 Workflow多分支运行介绍 构建条件节点控制分支执行 配置节点参数控制分支执行 配置多分支节点数据 父主题: 开发Workflow命令参考
基于ModelArts Standard运行GPU训练作业 在ModelArts Standard上运行GPU训练作业的场景介绍 在ModelArts Standard运行GPU训练作业的准备工作 在ModelArts Standard上运行GPU单机单卡训练作业 在ModelArts
"http_proxy=http://xxx.xxx.xxx.xxx" --network=host -t <镜像名称>:<版本名称> . <镜像名称>:<版本名称>:定义镜像名称。示例:pytorch_2_2_ascend:20241106 构建镜像前需保证Dockerfile文
算法选择的引擎规格ID。 engine_name String 算法选择的引擎版本名称。若填入engine_id则无需填写。 engine_version String 算法选择的引擎版本名称。若填入engine_id则无需填写。 image_url String 算法选择的自定义镜像地址。
显示已标注的图片的数据特征。 对于标注任务类型为“图像分类”的数据集版本,当已标注样本数为0时,发布版本后,数据特征页签版本置灰不可选,无法显示数据特征。否则,显示全部的图片的数据特征。 数据集中的图片数量要达到一定量级才会具有意义,一般来说,需要有大约1000+的图片。 “图
单击指定节点查看详情,可以对运行中的节点进行停止操作。 继续运行 对于单个节点中设置了需要运行中配置的参数时,节点运行会处于“等待操作”状态,用户完成相关数据的配置后,可单击“继续运行”按钮并确认继续执行当前节点。 部分运行Workflow节点 针对大型、复杂的Workflow,为节省重复运行消耗的时
"http_proxy=http://xxx.xxx.xxx.xxx" --network=host -t <镜像名称>:<版本名称> . <镜像名称>:<版本名称>:定义镜像名称。示例:pytorch_2_2_ascend:20241106 构建镜像前需保证Dockerfile文
本教程中用到的模型软件包如下表所示,请提前准备好。 获取模型软件包 本方案支持的模型对应的软件和依赖包获取地址如表1所示。 表1 模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6.3.912-xxx.zip 说明: 软件包名称中的xxx表示时间戳。
--network=host --build-arg install_type=llamafactory -t <镜像名称>:<版本名称> . <镜像名称>:<版本名称>:定义镜像名称。示例:pytorch_2_2_ascend:20241106 install_type:安装类型,默
Snt9B开展LLaMA-VID的推理过程。 约束限制 本方案目前仅适用于企业客户。 本文档适配昇腾云ModelArts 6.3.910版本,请参考获取配套版本的软件包和镜像,请严格遵照版本配套关系使用本文档。 确保容器可以访问公网。 资源规格要求 推荐使用“西南-贵阳一”Region上的Lite Server资源和Ascend
Snt9B开展Paraformer的推理过程。 约束限制 本方案目前仅适用于企业客户。 本文档适配昇腾云ModelArts 6.3.911版本,请参考获取配套版本的软件包和镜像,请严格遵照版本配套关系使用本文档。 确保容器可以访问公网。 资源规格要求 推荐使用“西南-贵阳一”Region上的Lite Server资源和Ascend