检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备模型文件和权重文件 在OBS桶中,创建文件夹,准备模型权重文件、推理启动脚本run_vllm.sh及SSL证书。此处以chatglm3-6b为例。 模型权重文件获取地址请参见表1。 若需要部署量化模型,请参考推理模型量化在Notebook中进行权重转换,并将转换后的权重上传至OBS中。 权重
创建AI应用 设置创建AI应用的相应参数。此处仅介绍关键参数,设置AI应用的详细参数解释请参见从OBS中选择元模型。 根据需要自定义应用的名称和版本。 模型来源选择“从对象存储服务(OBS)中选择”,元模型选择转换后模型的存储路径,AI引擎选择“Custom”,引擎包选择准备镜像中上传的推理镜像。
创建AI应用 设置创建AI应用的相应参数。此处仅介绍关键参数,设置AI应用的详细参数解释请参见从OBS中选择元模型。 根据需要自定义应用的名称和版本。 模型来源选择“从对象存储服务(OBS)中选择”,元模型选择转换后模型的存储路径,AI引擎选择“Custom”,引擎包选择准备镜像中上传的推理镜像。
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 问题现象 创建出3台GPU裸金属服务器,使用A节点制作镜像,用于在CCE纳管裸金属服务器时,使用该镜像,但是纳管后发现服务器A纳管失败,剩下两台服务器纳管成功。 原因分析 在CCE纳管过程中,需要通过cloudinit
如何查看账号ID和IAM用户ID 使用IAM账号登录华为云。 在页面右上方单击“控制台”,进入华为云管理控制台。 图1 控制台入口 在控制台右上角的账户名下方,单击“我的凭证”,进入“我的凭证”页面。 图2 我的凭证 在API凭证页面获取IAM用户名、用户ID、账号名和账号ID。
图8 停止服务 清除OBS中的数据。 在控制台左侧导航栏的服务列表,选择“对象存储服务OBS”,进入OBS服务详情页面。 在左侧导航栏选择“桶列表”,在列表详情,找到自己创建的OBS桶,单击桶名称,进入OBS桶详情。 在桶的详情页,左侧导航栏选择“对象”,在右侧“名称”列选中
Notebook的SSH远程功能时,需要配置子用户密钥管理服务的使用权限。 OBS对象存储服务 具有对象存储服务(OBS)查看桶列表、获取桶元数据、列举桶内对象、查询桶位置、上传对象、获取对象、删除对象、获取对象ACL等对象基本操作权限。 配置IAM权限 配置ModelArts委托权限 配置SWR组织权限
odelArts开发环境中调试。 实验阶段:调整数据集、调整超参等,通过多轮实验,训练出理想的模型,推荐在ModelArts训练中进行实验。 两个过程可以相互转换。如开发阶段代码稳定后,则会进入实验阶段,通过不断尝试调整超参来迭代模型;或在实验阶段,有一个可以优化训练的性能的想法,则会回到开发阶段,重新优化代码。
模型管理 模型调试 导入模型 查询模型列表 查询模型对象列表 查询模型详情 删除模型
服务管理 服务管理概述 在开发环境中部署本地服务进行调试 部署在线服务 查询服务详情 推理服务测试 查询服务列表 查询服务对象列表 更新服务配置 查询服务监控信息 查询服务日志 删除服务
创建训练作业 创建训练作业时提示“对象目录大小/数量超过限制”,如何解决? 训练环境中不同规格资源“/cache”目录的大小 训练作业的“/cache”目录是否安全? 训练作业一直在等待中(排队)? 创建训练作业时,超参目录为什么有的是/work有的是/ma-user? 在Mod
OBS管理 OBS管理概述 文件传输(推荐) 上传文件至OBS 上传文件夹至OBS 从OBS下载文件 从OBS下载文件夹
pem文件生成)。 单击“Open”。如果首次登录,PuTTY会显示安全警告对话框,询问是否接受服务器的安全证书。单击“Accept”将证书保存到本地注册表中。 图6 询问是否接受服务器的安全证书 成功连接到云上Notebook实例。 图7 连接到云上Notebook实例 父主题: 使用Notebook进行AI开发调试
OBS操作相关故障 读取文件报错,如何正确读取文件 TensorFlow-1.8作业连接OBS时反复出现提示错误 TensorFlow在OBS写入TensorBoard到达5GB时停止 保存模型时出现Unable to connect to endpoint错误 OBS复制过程中提示“BrokenPipeError:
步骤1:准备工作 已注册华为账号并开通华为云,进行了实名认证,且在使用ModelArts前检查账号状态,账号不能处于欠费或冻结状态。 注册华为账号并开通华为云 进行实名认证 配置委托访问授权 ModelArts使用过程中涉及到OBS、SWR、IEF等服务交互,首次使用Mode
MindSpore日志提示“ retCode=0x91, [the model stream execute failed]” 使用moxing适配OBS路径,pandas读取文件报错 日志提示“Please upgrade numpy to >= xxx to use this pandas
保存和加载带来的I/O挑战,华为云提供了基于对象存储服务OBS+高性能弹性文件服务SFS Turbo的AI云存储解决方案,如下图所示。 SFS Turbo HPC型支持和OBS数据联动,您可以通过SFS Turbo HPC型文件系统来加速对OBS对象存储中的数据访问,并将生成的结
如何使用pandas库处理OBS桶中的数据? 参考下载OBS文件到Notebook中的指导,将OBS中的数据下载至Notebook本地处理。 参考pandas用户指南处理pandas数据。 父主题: 数据存储
主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.909) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.910) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 常见错误原因和解决方法 父主题: LLM大语言模型训练推理