云服务器内容精选
-
软件包获取地址 软件包名称 软件包说明 获取地址 AscendCloud-6.3.906-xxx.zip 包含 三方大模型训练和推理代码包:AscendCloud-LLM AIGC代码包:AscendCloud-AIGC 算子依赖包:AscendCloud-OPP 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。
-
配套的基础镜像 镜像地址 获取方式 配套关系镜像软件说明 配套关系 PyTorch: 西南-贵阳一 swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2.1.0-cann_8.0.rc2-py_3.9-hce_2.0.2312-aarch64-snt9b-20240606190017-b881580 镜像发布到SWR,从SWR拉取 固件驱动:23.0.5 CANN:cann_8.0.rc2 容器镜像OS:hce_2.0 PyTorch:pytorch_2.1.0 FrameworkPTAdapter:6.0.RC2 如果用到CCE,版本要求是 CCE Turbo v1.25及以上
-
支持的特性 表1 本版本支持的特性说明 分类 软件包特性说明 参考文档 三方大模型,包名:AscendCloud-LLM 支持如下模型适配PyTorch-NPU的训练。 llama2-7b llama2-13b llama2-70b qwen-7b qwen-14b qwen-72b baichuan2-13b chatglm3-6b llama3-8b llama3-70b yi-6B yi-34B qwen1.5-7B qwen1.5-14B qwen1.5-32B qwen1.5-72B qwen2-0.5b qwen2-1.5b qwen2-7b qwen2-72b glm4-9b LLM开源大模型基于DevServer适配PyTorch NPU训练指导(6.3.906) LLM开源大模型基于Standard适配PyTorch NPU训练指导(6.3.906) 支持如下模型适配PyTorch-NPU的推理。 llama-7B llama-13b llama-65b llama2-7b llama2-13b llama2-70b llama3-8b llama3-70b yi-6b yi-9b yi-34b deepseek-llm-7b deepseek-coder-instruct-33b deepseek-llm-67b qwen-7b qwen-14b qwen-72b qwen1.5-0.5b qwen1.5-7b qwen1.5-1.8b qwen1.5-14b qwen1.5-32b qwen1.5-72b qwen1.5-110b qwen2-0.5b qwen2-1.5b qwen2-7b qwen2-72b baichuan2-7b baichuan2-13b chatglm2-6b chatglm3-6b glm-4-9b gemma-2b gemma-7b mistral-7b mixtral 8*7B ascend-vllm支持如下推理特性: vllm版本升级至0.4.2 llama、qwen系列模型支持w8a8、w4a16量化 支持prefix caching、投机推理特性 LLM开源大模型基于DevServer适配PyTorch NPU推理指导(6.3.906) LLM开源大模型基于Standard适配PyTorch NPU推理指导(6.3.906) AIGC,包名:AscendCloud-AIGC 支持如下框架或模型基于DevServer的PyTorch NPU推理: ComfyUI LLaVA Qwen-VL Wav2Lip 支持如下模型基于DevServer的PyTorch NPU的训练: Qwen-VL LLaVA SDXL&SD1.5 ComfyUI插件基于DevServer适配PyTorch NPU推理指导(6.3.906) LLaVA模型基于DevServer适配PyTorch NPU推理指导(6.3.906) Qwen-VL基于DevServer适配Pytorch NPU的推理指导(6.3.906) Wav2Lip基于DevServer适配PyTorch NPU推理指导(6.3.906) LLaVA模型基于DevServer适配PyTorch NPU训练指导(6.3.906) Qwen-VL基于DevServer适配Pytorch NPU训练指导(6.3.906) 算子,包名:AscendCloud-OPP Scatter、Gather算子性能提升,满足MoE训练场景 matmul、swiglu、rope等算子性能提升,支持vllm推理场景 新增random随机数算子,优化FFN算子,满足AIGC等场景 新增自定义交叉熵融合算子,满足BMTrain框架训练性能要求 优化PageAttention算子,满足vllm投机推理场景 新增CopyBlocks算子,满足vllm框架beam search解码场景 无
-
支持的特性 表1 本版本支持的特性说明 分类 软件包特性说明 参考文档 三方大模型,包名:AscendCloud-LLM 支持如下模型适配PyTorch-NPU的训练(ModelLink) llama2-7b llama2-13b llama2-70b qwen-7b qwen-14b qwen-72b baichuan2-13b chatglm3-6b llama3-8b llama3-70b yi-6B yi-34B qwen1.5-7B qwen1.5-14B qwen1.5-32B qwen1.5-72B qwen2-0.5b qwen2-1.5b qwen2-7b qwen2-72b glm4-9b 支持如下模型适配PyTorch-NPU的训练(LlamaFactory) llama3-8b llama3-70b qwen1.5-0.5b qwen1.5-1.8b qwen1.5-4b qwen1.5-7b qwen1.5-14b yi-6b yi-34b qwen2-0.5b qwen2-1.5b qwen2-7b qwen2-7b falcon-11B LLM开源大模型基于DevServer适配ModelLinkPyTorch NPU训练指导(6.3.907) LLM开源大模型基于DevServer适配LLamaFactory PyTorch NPU训练指导(6.3.907) LLM开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.907) LLM开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.907) 支持如下模型适配PyTorch-NPU的推理。 llama-7B llama-13b llama-65b llama2-7b llama2-13b llama2-70b llama3-8b llama3-70b yi-6b yi-9b yi-34b deepseek-llm-7b deepseek-coder-instruct-33b deepseek-llm-67b qwen-7b qwen-14b qwen-72b qwen1.5-0.5b qwen1.5-7b qwen1.5-1.8b qwen1.5-14b qwen1.5-32b qwen1.5-72b qwen1.5-110b qwen2-0.5b qwen2-1.5b qwen2-7b qwen2-72b baichuan2-7b baichuan2-13b chatglm2-6b chatglm3-6b glm-4-9b gemma-2b gemma-7b mistral-7b mixtral 8*7B falcon2-11b qwen2-57b-a14b llama3.1-8b llama3.1-70b ascend-vllm支持如下推理特性: vLLM版本升级至0.5.0 LLM开源大模型基于DevServer适配PyTorch NPU推理指导(6.3.907) LLM开源大模型基于Standard适配PyTorch NPU推理指导(6.3.907) AIGC,包名:AscendCloud-AIGC 支持如下框架或模型基于DevServer的PyTorch NPU推理: ComfyUI diffusers stable-diffusion-webui LLaVA Qwen-VL Wav2Lip OpenSora1.2 OpenSoraPlan1.0 支持如下框架或模型基于DevServer的PyTorch NPU的训练: diffusers koyha_ss LLaVA Wav2Lip OpenSora1.2 OpenSoraPlan1.0 SDXL基于Standard适配PyTorch NPU的LoRA训练指导(6.3.907) SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导(6.3.907) SD3 Diffusers框架基于DevServer适配PyTorch NPU推理指导(6.3.907) SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导(6.3.907) Open-Sora-Plan1.0基于DevServer适配PyTorch NPU训练推理指导(6.3.907) Wav2Lip基于DevServer适配PyTorch NPU推理指导(6.3.907) Wav2Lip基于DevServer适配PyTorch NPU训练指导(6.3.907) 算子,包名:AscendCloud-OPP Scatter、Gather算子性能提升,满足MoE训练场景 matmul、swiglu、rope等算子性能提升,支持vllm推理场景 支持random随机数算子,优化FFN算子,满足AIGC等场景 支持自定义交叉熵融合算子,满足BMTrain框架训练性能要求 优化PageAttention算子,满足vllm投机推理场景 支持CopyBlocks算子,满足vllm框架beam search解码场景 无
-
配套的基础镜像 镜像地址 获取方式 镜像软件说明 配套关系 西南-贵阳一 PyTorch: swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2.1.0-cann_8.0.rc2-py_3.9-hce_2.0.2312-aarch64-snt9b-20240727152329-0f2c29a MindSpore: swr.cn-southwest-2.myhuaweicloud.com/atelier/mindspore_2_3_ascend:mindspore_2.3.0-cann_8.0.rc2-py_3.9-hce_2.0.2312-aarch64-snt9b-20240727152329-0f2c29a 镜像发布到SWR,从SWR拉取 固件驱动:23.0.6 CANN:cann_8.0.rc2 容器镜像OS:hce_2.0 PyTorch:pytorch_2.1.0 MindSpore:MindSpore 2.3.0 FrameworkPTAdapter:6.0.RC2 如果用到CCE,版本要求是CCE Turbo v1.25及以上
-
软件包获取地址 软件包名称 软件包说明 获取地址 AscendCloud-6.3.907-xxx.zip 包含 三方大模型训练和推理代码包:AscendCloud-LLM AIGC代码包:AscendCloud-AIGC 算子依赖包:AscendCloud-OPP 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。
-
问题现象 训练启动的日志出现如下相关错误: time="2023-05-27T07:07:08Z" level=error msg="detect failed, error: dsmi-checker detect failed, error: fork/exec /home/ma-user/modelarts/bin/detect/ascend_check: no such file or directory" file="ascend_check.go:56" Command=bootstrap/run Component=ma-training-toolkit Platform=ModelArts-Service time="2023-05-27T07:07:13Z" level=error msg="[detect] ascend-check error, exiting..." file="run_train.go:94" Command=bootstrap/run Component=ma-training-toolkit Platform=ModelArts-Service
-
原因分析 出现该问题的可能原因如下: 本地数据、文件保存将"/cache"目录空间用完。 数据处理过程中对数据进行解压,导致数据大小膨胀,将"/cache"目录空间用完。 数据未保存至/cache目录或者/home/ma-user/目录(/cache会软连接成/home/ma-user/),导致数据占满系统目录。系统目录仅支持系统功能基本运行,无法支持大数据存储。 部分训练任务会在训练过程中生成checkpoint文件,并进行更新。如更新过程中,未删除历史的checkpoint文件,会导致/cache目录逐步被用完。 实际存储空间足够,却依旧报错“No Space left on device”。可能是inode不足,或者是触发操作系统的文件索引缓存问题,导致操作系统无法创建文件,造成用户磁盘占满。 触发条件和下面的因素有关: 文件名越长,文件数量的上限越小。 blocksize越小,文件数量的上限越小。 blocksize系统默认为4096B,总共有三种大小:1024B、2048B、4096B。 创建文件越快,越容易触发(机制大概是:有一个缓存,这块大小和上面的1和2有关,目录下文件数量比较大时会启动,使用方式是边用边释放)。 程序运行过程中,产生了core文件,core文件占满了"/"根目录空间。
-
处理方法 排查数据集大小、数据集解压后的大小,checkpoint保存文件大小,是否占满了磁盘空间。具体规格的空间大小可参见训练环境中不同规格资源“/cache”目录的大小 如数据大小已超过/cache目录大小,则可以考虑通过SFS来额外挂载数据盘进行扩容。 将数据和checkpoint保存在/cache目录或者/home/ma-user/目录。 检查checkpoint相关逻辑,保证历史checkpoint不会不断积压,导致/cache目录用完。 如文件大小小于/cache目录大小并且文件数量超过50w,则考虑为inode不足或者触发了操作系统的文件索引相关问题。需要: 分目录处理,减少单个目录文件量。 减慢创建文件的速度。如数据解压过程中,sleep 5s后再进行下一个数据的解压。 如果训练作业的工作目录下有core文件生成,可以在启动脚本最前面加上如下代码,来关闭core文件产生。并推荐先在开发环境中进行代码调试。 import os os.system("ulimit -c 0")
-
处理方法 如果是OBS相关错误。 OBS文件不存在。The specified key does not exist。 参考日志提示“errorMessage:The specified key does not exist”章节处理。 用户OBS权限不足。 参考 5.5.1 日志提示“reason:Forbidden”。 OBS限流。 参考5.1.1 OBS复制过程中提示“BrokenPipeError: Broken pipe”。 OBS其他问题。 请参考OBS服务端错误码或者采集request id后向OBS客服进行咨询。 如果是空间不足。 参考 常见的磁盘空间不足的问题和解决办法章节处理。
-
问题现象 在训练创建后出现“系统容器异常退出”的故障。 [ModelArts Service Log]2022-10-11 19:18:23,267 - file_io.py[1ine:748] - ERROR: stat:404 errorCode:NoSuchKey errorMessage:The specifiedkey does not exist. reason:Not Found request-id:00000183C6C4010℃66D399E000COE3xx retry:0 [ModelArts Service Log]2022-10-11 19:18:23,267 - modelarts-downloader.py[line:90] - ERROR: modelarts-downloader. py: Download directory failed: [Errno {'status': 404, ......}] file or directoryor bucket not found.
-
解决方案 专属资源池的Ascend驱动版本需与训练基础镜像中的Cann软件版本版本匹配。 ModelArts上支持的Ascend驱动版本可以在ModelArts专属资源池(NEW)的列表页查看“加速卡驱动”获取。 Ascend驱动版本与Cann软件版本的兼容关系如下表所示: 表1 Ascend驱动版本与Cann软件版本的兼容关系 Ascend驱动版本 支持Cann软件版本 基础镜像 c81-22.0.0.3 5.1.0 mindspore_1.7.0-cann_5.1.0-py_3.7-euler_2.8.3-aarch64 tensorflow_1.15.0-cann_5.1.0-py_3.7-euler_2.8.3-aarch64 pytorch_1.8.1-cann_5.1.0-py_3.7-euler_2.8.3-aarch64
-
处理方法 请您对作业代码进行排查分析,确认是否对训练代码和参数进行过修改。 检查资源分配情况(cpu/mem/gpu/snt9/infiniband)是否符合预期。 通过CloudShell登录到Linux工作页面,检查GPU工作情况: 通过输入“nvidia-smi”命令,查看GPU工作是否异常。 通过输入“nvidia-smi -q -d TEMPERATURE”命令, 查看TEMP参数是否存在异常, 如果温度过高,会导致训练性能下降。
-
处理步骤 查询训练作业的日志和监控信息,是否存在明确的OOM报错信息。 是,训练作业的日志里存在OOM报错,执行2。 否,训练作业的日志里没有OOM报错,但是存在监控指标异常,执行3。 排查训练代码是否存在不断占用资源的代码,使得资源未被合理使用。 是,优化代码,等待作业运行正常。 否,提高训练作业使用的资源规格或者联系技术支持。 重启训练作业,使用CloudShell登录训练容器监控内存指标,确认是否有突发性的内存增加现象。 是,排查内存突发增加的时间点附近的训练作业日志,优化对应的代码逻辑,减少内存申请。 否,提高训练作业使用的资源规格或者联系技术支持。
-
原因分析及处理方法 查看训练作业的“日志”,出现报错“MoxFileNotExistsException(resp, 'file or directory or bucket not found.')”。 原因:Moxing在进行文件复制时,未找到train_data_obs目录。 处理建议:修改train_data_obs目录为正确地址,重新启动训练作业。 另外在Moxing下载OBS对象过程中,不要删除相应OBS目录下的对象,否则Moxing在下载到被删除的对象时会下载失败。 查看训练作业的“日志”,出现报错“CUDA capability sm_80 is not compatible with the current PyTorch installation.The current PyTorch install supports CUDA capabilities sm_37 sm_50 sm_60 sm_70'”。 原因:训练作业使用的镜像CUDA版本只支持sm_37、sm_50、sm_60和sm_70的加速卡,不支持sm_80。 处理建议:使用 自定义镜像 创建训练作业,并安装高版本的cuda以及对应的PyTorch版本。 查看训练作业的“日志”,出现报错“ERROR:root:label_map.pbtxt cannot be found. It will take a long time to open every annotation files to generate a tmp label_map.pbtxt.”。 如果使用的是AI Gallery订阅的算法,建议先检查数据的标签是否有问题。 如果使用的是物体检测类算法,建议检查数据的label框是否为非矩形。 物体检测类算法仅支持矩形label框。 查看训练作业的“日志”,出现报错“RuntimeError: The server socket has failed to listen on any local network address. The server socket has failed to bind to [::]:29500 (errno: 98 - Address already in use). The server socket has failed to bind to 0.0.0.0:29500 (errno: 98 - Address already in use).”。 原因:训练作业的端口号有冲突。 处理建议:更改代码中的端口号,重启训练作业。 查看训练作业的“日志”,出现报错“WARNING: root: Retry=7, Wait=0.4, Times tamp=1697620658.6282516”。 原因:Moxing版本太低。 处理建议:联系技术支持将Moxing版本升级至2.1.6及以上版本。
更多精彩内容
CDN加速
GaussDB
文字转换成语音
免费的服务器
如何创建网站
域名网站购买
私有云桌面
云主机哪个好
域名怎么备案
手机云电脑
SSL证书申请
云点播服务器
免费OCR是什么
电脑云桌面
域名备案怎么弄
语音转文字
文字图片识别
云桌面是什么
网址安全检测
网站建设搭建
国外CDN加速
SSL免费证书申请
短信批量发送
图片OCR识别
云数据库MySQL
个人域名购买
录音转文字
扫描图片识别文字
OCR图片识别
行驶证识别
虚拟电话号码
电话呼叫中心软件
怎么制作一个网站
Email注册网站
华为VNC
图像文字识别
企业网站制作
个人网站搭建
华为云计算
免费租用云托管
云桌面云服务器
ocr文字识别免费版
HTTPS证书申请
图片文字识别转换
国外域名注册商
使用免费虚拟主机
云电脑主机多少钱
鲲鹏云手机
短信验证码平台
OCR图片文字识别
SSL证书是什么
申请企业邮箱步骤
免费的企业用邮箱
云免流搭建教程
域名价格