检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
册,启动Notebook实例后,安装一些包后,镜像保存过程会提示超过35G大小,保存失败? 原因分析 SWR侧看到的大小是镜像压缩后的大小,解压后实际大小一般是压缩后的2.5~3倍,所以才会安装少量的包后,镜像大小超过35G。 父主题: Standard镜像相关
e Server环境中,使用NPU卡对CogVideoX模型进行全量微调。本文档中提供的脚本,是基于原生CogVideoX的代码基础适配修改,可以用于NPU芯片训练。 CogVideo是一个94亿参数的Transformer模型,用于文本到视频生成。通过继承一个预训练的文本到图像
Ascend-vLLM概述 vLLM是GPU平台上广受欢迎的大模型推理框架,因其高效的continuous batching和pageAttention功能而备受青睐。此外,vLLM还具备投机推理和自动前缀缓存等关键功能,使其在学术界和工业界都得到了广泛应用。 Ascend-vLLM是华为云针对NPU
表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 job_id 是 Long 训练作业的ID。 version_id 是 Long 训练作业的版本ID。 请求消息 无请求参数。 响应消息 响应参数如表2所示。
参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 config_name 是 String 训练作业参数的名称。 请求消息 请求参数如表2所示。 表2 参数说明 参数 是否必选
NPU的Finetune训练指导(6.3.905) Stable Diffusion(简称SD)是一种基于扩散过程的图像生成模型,应用于文生图场景,能够帮助用户生成图像。SDXL Finetune是指在已经训练好的SDXL模型基础上,使用新的数据集进行微调(fine-tuning)以优化模型性能的过程。
DeepSpeed和Accelerate都是针对深度学习训练加速的工具,但是它们的实现方式和应用场景有所不同。 DeepSpeed是一种深度学习加速框架,主要针对大规模模型和大规模数据集的训练。DeepSpeed的核心思想是在单个GPU上实现大规模模型并行训练,从而提高训练速度。DeepSpeed提供了一系列的优化技
Lite的DevServer环境中,使用NPU卡对CogVideoX模型基于sat框架进行全量微调。本文档中提供的脚本,是基于原生CogVideoX的代码基础适配修改,可以用于NPU芯片训练。 CogVideo是一个94亿参数的Transformer模型,用于文本到视频生成。通过继承一个预训练的文本到图像
请求超时返回Timeout 问题现象 服务预测请求超时 原因分析 请求超时,大概率是APIG(API网关)拦截问题。需排查APIG(API网关)和模型。 处理方法 优先排查APIG(API网关)是否是通的,可以在本地使用curl命令排查,命令行:curl -kv {预测地址}。如返
d} 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 job_id 是 String 可视化作业ID。 请求消息 无请求参数。 响应消息 响应参数如表2所示。 表2 响应参数
参数类型 说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 job_id 是 String 可视化作业ID。 请求消息 请求参数如表2所示。 表2 请求参数 参数 是否为必选 参数类型 说明 job_desc 是 String 对可视化作业的
出现此故障是因为Jupyter进程被清理掉了,一般情况Notebook会自动重启的,如果没有自动重启,创建一直失败,请确认是否是自定义镜像的问题。 解决方案 排查是否是自定义镜像的问题。 自定义镜像构建完成,在ModelArts镜像管理注册时,“架构”和“类型”需要和源镜像保持一致。 图2
ns 参数说明如表1所示。 表1 路径参数 参数 是否必选 参数类型 说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 job_id 是 Long 训练作业的ID。 表2 Query参数 参数 是否必选 参数类型 说明 per_page
替换原理如下图所示。通过设置开关选项(是否使用onnx模型),控制模型推理时,模型使用的是onnx模型或是mindir的模型。 图1 精度诊断流程 一般情况下,onnx模型推理的结果可以认为是标杆数据,单独替换某个onnx模型为MindSpore Lite模型,运行得到的结果再与
在ModelArts中图像分类和物体检测具体是什么? 图像分类是根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。简单的说就是识别一张图中是否是某类/状态/场景,适合图中主体
打开Notebook显示空白 打开Notebook时显示空白,请清理浏览器缓存后尝试重新打开。 检查浏览器是否安装了过滤广告组件,如果是,请关闭该组件。 报错404 如果是IAM用户在创建实例时出现此错误,表示此IAM用户不具备对应存储位置(OBS桶)的操作权限。 解决方法: 使用账号登录OB
可能由于实例过负载引起故障,Notebook正在自动恢复中,请刷新页面并等待几分钟。常见原因是内存占用满。 处理方法 当出现此错误时,Notebook会自动恢复,您可以刷新页面,等待几分钟。 由于出现此错误,常见原因是内存占用满导致的,您可以尝试使用如下方法,从根本上解决错误。 方法1:将Notebook更换为更高规格的资源。
flow+GPU) 本章节介绍如何从0到1制作镜像,并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是Tensorflow,训练使用的资源是GPU。 本实践教程仅适用于新版训练作业。 场景描述 本示例使用Linux x86_64架构的主机,操作系统ubuntu-18
NPU的LoRA训练指导(6.3.905) Stable Diffusion(简称SD)是一种基于扩散过程的图像生成模型,应用于文生图场景,能够帮助用户生成图像。SDXL LoRA训练是指在已经训练好的SDXL模型基础上,使用新的数据集进行LoRA微调以优化模型性能的过程。 本
h+CPU/GPU) 本章节介绍如何从0到1制作镜像,并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是PyTorch,训练使用的资源是CPU或GPU。 本实践教程仅适用于新版训练作业。 场景描述 本示例使用Linux x86_64架构的主机,操作系统ubuntu-18