检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Error: No module named 'tyro'" 错误截图: 报错原因:未指定tyro依赖包版本,导致安装依赖为最新0.9.0版本导致与其他依赖冲突 解决措施:任务前容器内更新'tyro'版本为0.8.14或以下版本 pip install tyro==0.8.14 问题7:训练过程中报“an
荐在条件允许的前提下配套安装最新商发版本的昇腾开发套件CANN Toolkit、昇腾驱动以及torch_npu包。具体操作,请参考昇腾商用版资源下载指导。 数据集。 需要排查是否使用的训练数据集存在差异。 初始权重。 需要排查是否加载的初始权重有差异,建议加载相同的初始权重。 父主题:
约束与限制 本节介绍ModelArts服务在使用过程中的约束和限制。 规格限制 表1 规格说明 资源类型 规格 说明 计算资源 所有按需计费、包年/包月、套餐包中的计算资源规格,包括CPU、GPU和NPU 购买的所有类型的计算资源均不支持跨Region使用。 计算资源 套餐包 套
准备代码 本教程中用到的训练推理代码和如下表所示,请提前准备好。 获取模型软件包 本方案支持的模型对应的软件和依赖包获取地址如表1所示,模型列表、对应的开源权重获取地址如表2所示。 表1 模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6
准备数据 本教程使用到的训练数据集是Alpaca数据集。您也可以自行准备数据集。 Alpaca数据集 本教程使用Alpaca数据集,数据集的介绍及下载链接如下。 Alpaca数据集是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令
本方案目前仅适用于企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。 约束限制 本文档适配昇腾云ModelArts 6.3.909版本,请参考表1获取配套版本的软件包,请严格遵照版本配套关系使用本文档。 本文档中的模型运行环境是ModelArts Lite Cluster。
本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。 约束限制 本文档适配昇腾云ModelArts 6.3.908版本,请参考表1获取配套版本的软件包,请严格遵照版本配套关系使用本文档。 本文档中的模型运行环境是ModelArts Lite DevServer。
安装过程预计1~2分钟,安装完成后右下角会弹出对话框,请单击“Reload Window and Open”。 本文以VS Code 1.78.2版本的操作为例,其他版本的VS Code可能不会弹出“Reload Window and Open”,请直接执行5。 图6 Reload Window
准备代码 本教程中用到的训练推理代码和如下表所示,请提前准备好。 获取模型软件包 本方案支持的模型对应的软件和依赖包获取地址如表1所示,模型列表、对应的开源权重获取地址如表2所示。 表1 模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6
90% 紧急 请及时检查,防止磁盘写满影响业务。推荐清理计算节点无效数据。 磁盘信息 ma_node_disk_info 该指标用于展示磁盘的基础信息。 - ≥0 NA NA NA 读取次数 ma_node_disk_reads_completed_total 成功完成的读取总次数。
准备代码 本教程中用到的训练推理代码和如下表所示,请提前准备好。 获取模型软件包 本方案支持的模型对应的软件和依赖包获取地址如表1所示,模型列表、对应的开源权重获取地址如表2所示。 表1 模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6
本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。 约束限制 本文档适配昇腾云ModelArts 6.3.909版本,请参考表1获取配套版本的软件包,请严格遵照版本配套关系使用本文档。 本文档中的模型运行环境是ModelArts Lite DevServer。
部署:将模型发布为在线服务、批量服务或边缘服务。 发布:将模型发布至AI Gallery,详情请参见发布ModelArts模型。 删除:针对模型的某一版本进行删除。 查看模型详情 当模型创建成功后,您可以进入模型详情页查看模型的信息。 登录ModelArts管理控制台,在左侧菜单栏中选择“模型管理”,进入“自定义模型”列表页面。
本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。 约束限制 本文档适配昇腾云ModelArts 6.3.910版本,请参考表1获取配套版本的软件包,请严格遵照版本配套关系使用本文档。 本文档中的模型运行环境是ModelArts Lite DevServer。
$PYTHON_SCRIPT \ $PYTHON_ARGS " echo $CMD $CMD torchrun.sh内容如下: PyTorch 2.1版本需要将“rdzv_backend”参数设置为“static:--rdzv_backend=static”。 #!/bin/bash # 系统默认环境变量,不建议修改
本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。 约束限制 本文档适配昇腾云ModelArts 6.3.912版本,请参考表1获取配套版本的软件包,请严格遵照版本配套关系使用本文档。 本文档中的模型运行环境是ModelArts Lite DevServer。
性能benchmark验证使用到的脚本存放在代码包AscendCloud-3rdLLM-xxx.zip的llm_tools/llm_evaluation(6.3.905版本)目录中。 代码目录如下: benchmark_tools ├── benchmark_parallel.py # 评测静态性能脚本 ├──
String 训练作业的日志OBS输出路径URL,默认为空。如:“/usr/train/”。 pre_version_id 是 Long 训练作业前一版本的ID。 可通过查询训练作业版本列表 中查找“version_id”。 user_image_url 否 String 自定义镜像训练作业
本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。 约束限制 本文档适配昇腾云ModelArts 6.3.911版本,请参考表1获取配套版本的软件包,请严格遵照版本配套关系使用本文档。 本文档中的模型运行环境是ModelArts Lite DevServer。
plugins: configmap1980: - --rank-table-version=v2 # 保持不动,生成v2版本ranktablefile env: [] svc: - --publish-not-ready-addresses=true