检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
elArts 6.3.911 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 支持的模型列表和权重文件 本方案支持vLLM的v0.6.3版本。不同vLLM版本支持的模型列表有差异,具体如表3所示。 表3
com@http://repo.huaweicloud.com@g" /etc/apt/sources.list 安装NFS客户端,挂载对应盘。 sudo apt-get update sudo apt-get install nfs-common 获取SFS Turbo的挂载命令。
最多支持添加20个标签。 查看资源池的磁盘规格 在资源池详情页的右上角,单击“更多>扩缩容”,在资源池扩缩容页面可以查看该资源规格中携带的系统盘、容器盘、数据盘的磁盘类型、大小、数量和写入模式、容器引擎空间大小、挂载路径磁盘配置等参数。 父主题: 管理Standard专属资源池
变量调整日志等级,打印更多调试日志。 关于如何对MindSpore Lite遇到的问题进行定位与解决,请参见MindSpore Lite官网提供的问题定位指南。 父主题: 常见问题
基础镜像一般选用“ubuntu 18.04”的官方镜像,或者nvidia官方提供的带cuda驱动的镜像。相关镜像直接到dockerhub官网查找即可。 构建流程:安装所需的apt包、驱动,配置ma-user用户、导入conda环境、配置Notebook依赖。 推荐使用Docker
)。 单机单卡运行脚本: # 在代码主目录下创建一个run.sh,内容如下 #!/bin/bash # 从obs中下载数据到本地SSD盘 DIS_DATA_PATH=/cache SRC_DATA_PATH=${imagenet数据集在obs中分享链接} OBSUTIL_PA
scheduler 若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导(6.3
${pod_scheduler_name} 若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出
scheduler 如果重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导(6.3
scheduler 若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导(6.3
训练调试模型。MindInsight当前支持基于MindSpore引擎的训练作业。MindInsight相关概念请参考MindSpore官网。 MindSpore支持将数据信息保存到Summary日志文件中,并通过可视化界面MindInsight进行展示。 前提条件 使用Mind
w在运行过程中的计算图、各种指标随着时间的变化趋势以及训练中使用到的数据信息。TensorBoard相关概念请参考TensorBoard官网。 TensorBoard可视化训练作业,当前仅支持基于TensorFlow、PyTorch版本镜像,CPU/GPU规格的资源类型。请根据实际局点支持的镜像和资源规格选择使用。
#启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字 确保Notebook内通网,已通网可以跳过这一步,未通网需要配置$config_proxy_str,$config_pip_str设置对应的代理和pip源,来确保当前代理和pip源可用。
${pod_scheduler_name} 若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出
${pod_scheduler_name} 若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出
${pod_scheduler_name} 若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出
的python) python -c "import torch;print(torch.__version__)" 通过pytorch官网可查兼容版本:https://pytorch.org/get-started/previous-versions/ 如果环境中装了多版本的c
机头网卡配置是什么? 有以下两类网卡: 四个2*100GE网卡,为RoCE网卡,插在NPU板。 一个4*25GE/10GE,为Hi1822网卡,插在主板上的。 ifconfig能看到的网卡信息吗 能看到主板上的网卡信息,即VPC分配的私有IP。如果要看RoCE网卡的命令需要执行“
新镜像构建 基础镜像一般选用ubuntu 18.04的官方镜像,或者nvidia官方提供的带cuda驱动的镜像。相关镜像直接到dockerhub官网查找即可。 构建流程:安装所需的apt包、驱动,配置ma-user用户、导入conda环境、配置Notebook依赖。 推荐使用Docker
的空间大小可参见训练环境中不同规格资源“/cache”目录的大小 如数据大小已超过/cache目录大小,则可以考虑通过SFS来额外挂载数据盘进行扩容。 将数据和checkpoint保存在/cache目录或者/home/ma-user/目录。 检查checkpoint相关逻辑,保证