检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
status processes”如何解决? 镜像保存时报错“container size %dG is greater than threshold %dG”如何解决? 保存镜像时报错“too many layers in your image”如何解决? 镜像保存时报错“The container
status processes”如何解决? 镜像保存时报错“container size %dG is greater than threshold %dG”如何解决? 保存镜像时报错“too many layers in your image”如何解决? 镜像保存时报错“The container
创建Notebook可以选择小容量EVS, 比如5G大小; 开发完成后,需要大规模数据集训练,此时再将存储容量扩容至当前阶段所需容量,可以节约成本。 动态扩容EVS有什么限制 Notebook实例的存储配置采用的是云硬盘EVS。 图1 创建Notebook实例时选择云硬盘EVS存储 单次最大可以扩容100GB,扩容后的总容量不超过4096GB。
常见问题 MindSpore Lite问题定位指南 模型转换报错如何查看日志和定位? 日志提示Compile graph failed 日志提示Custom op has no reg_op_name attr 父主题: GPU推理业务迁移至昇腾的通用指导
之目的。这类特性在大型企业用户的使用场景下很常见。如果需要对委托授权的权限范围进行精确控制,参考本章节进行定制化委托授权。 本章节主要介绍如何给IAM用户下的子用户配置更细粒度的权限。 由于ModelArts的使用权限依赖OBS服务的授权,您需要为用户授予OBS的系统权限。 如果
将下载的文件夹重命名,以便后续脚本中引用。 mv stable-diffusion-v1-5 pytorch_models 此处由于Huggingface网站的限制以及模型文件的大小原因,很可能会下载失败。您可以登录Huggingface网站,从浏览器下载模型后,再手动上传到物理机/home/pytorch_models目录下。
在Notebook调试环境中部署推理服务 介绍如何在Notebook中配置NPU环境,部署并启动推理服务,完成精度测试和性能测试。 如果需要部署量化模型,需在Notebook中进行模型权重转换后再部署推理服务。 在推理生产环境中部署推理服务 介绍如何在创建AI应用,部署并启动推理服务,在线预测在线服务。
示可被业务使用到的资源量。其中,CPU核数为微核,1000微核=1物理核。 如下图所示,支持对多节点批量进行删除、退订、重启、重置、开启/关闭高可用冗余操作,具体介绍请参见修复Standard专属资源池故障节点。还支持对节点批量添加、编辑、删除资源标签操作,“包年/包月”的节点支
accept 是 Boolean 是否通过。可选值如下: true:通过 false:不通过 comment 否 String 评审意见,限制长度为[0,256],且不能包含!<>=&"'字符。 sample_id 否 String 样本ID,可调用查询样本列表接口获取。 score
镜像大小引起的保存镜像失败 (Container size %dG is greater than threshold %dG) 紧急 层数限制引起的保存镜像失败 (Too many layers in your image) 紧急 任务超时引起的保存镜像失败 (Operations
准备数据 自动学习的每个项目对数据有哪些要求? 创建预测分析自动学习项目时,对训练数据有什么要求? 使用从OBS选择的数据创建表格数据集如何处理Schema信息? 物体检测或图像分类项目支持对哪些格式的图片进行标注和训练? 父主题: Standard自动学习
OBS操作相关故障 读取文件报错,如何正确读取文件 TensorFlow-1.8作业连接OBS时反复出现提示错误 TensorFlow在OBS写入TensorBoard到达5GB时停止 保存模型时出现Unable to connect to endpoint错误 OBS复制过程中提示“BrokenPipeError:
工作空间名称。长度限制为4-64字符,支持中文、大小写字母、数字、中划线和下划线。同时'default'为系统预留的默认工作空间名称,用户无法自己创建名为'default'的工作空间。 description 否 String 工作空间描述,默认为空。长度限制为0-256字符。 表4
RM奖励训练,复制rm_yaml样例模板内容覆盖demo.yaml文件内容。 1、DPO偏好训练、Reward奖励模型训练、PPO强化学习目前仅限制支持于llama3系列 2、PPO训练暂不支持 ZeRO-3存在通信问题,如llama3-70B使用ZeRO-3暂不支持 训练策略类型 全参full,配置如下:
RM奖励训练,复制rm_yaml样例模板内容覆盖demo.yaml文件内容。 1、DPO偏好训练、Reward奖励模型训练、PPO强化学习目前仅限制支持于llama3系列 2、PPO训练暂不支持 ZeRO-3存在通信问题,如llama3-70B使用ZeRO-3暂不支持 训练策略类型 全参full,配置如下:
ep)导致的卡死,请忽略。 如果对于误检有疑问或者卡死问题无法自行解决,您可以前往ModelArts开发者论坛进行提问或者搜索问题。 约束限制 卡死检测仅支持资源类型为GPU和NPU的训练作业。 操作步骤 卡死检测无需额外配置,作业运行中会自动执行检测。检测到作业卡死后会在训练作
RM奖励训练,复制rm_yaml样例模板内容覆盖demo.yaml文件内容。 DPO偏好训练、Reward奖励模型训练、PPO强化学习目前仅限制支持llama3系列。 PPO训练暂不支持llama3-70B,存在已知的内存OOM问题,待社区版本修复。 训练策略类型 全参full,配置如下:
显的改善。 同样功能的PyTorch Pipeline,因为指导要求适配onnx pipeline,两个pipeline本身功能就有差别,如何适配? 由于Diffusers社区的“single model file policy”设计原则,不同的pipeline是不同路径在独立演
“数据来源”:“OBS” “导入方式”:“目录”。 “导入路径”:数据存储的OBS路径。 “数据标注状态”:已标注。 “高级特征选项 ”:默认关闭,可通过勾选高级选项提供增强功能。 如“按标签导入”:系统将自动获取此数据集的标签,您可以单击“添加标签”添加相应的标签。此字段为可选字段
file.copy_parallel”接口加速数据下载。 需要时可以通过在训练作业的“环境变量”中设置“MOX_C_ACCELERATE=0”,来关闭数据下载加速特性。 父主题: 在Notebook中使用Moxing命令