检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
支持1~90个字符,请勿在描述中输入涉政、迷信、违禁等相关敏感词,否则发布审核无法通过。 可见范围 “所有用户可见”:表示公开资产,所有用户都可以查看该资产。 “指定用户可见”:输入账号名、账号ID或用户昵称搜索并选择用户,使其可见该资产。 可用范围 选择是否启用“申请用户可用”。 勾选
取值范围:0~1 默认值:1 top_k 选择在模型的输出结果中选择概率最高的前K个结果。 取值范围:1~1000 默认值:20 在对话框中输入问题,查看返回结果,在线体验模型服务。 图3 体验模型服务
Notebook的SSH远程功能时,需要配置子用户密钥管理服务的使用权限。 OBS对象存储服务 具有对象存储服务(OBS)查看桶列表、获取桶元数据、列举桶内对象、查询桶位置、上传对象、获取对象、删除对象、获取对象ACL等对象基本操作权限。 配置IAM权限 配置ModelArts委托权限
ma-cli)" 此外,可以通过“ma-cli auto-completion Fish”或“ma-cli auto-completion Fish”命令查看“Zsh”、“Fish”中的自动补全命令。 命令概览 $ ma-cli auto-completion -h Usage: ma-cli auto-completion
作业日志选择OBS中的路径,训练作业的日志信息则保存该路径下。 最后,提交训练作业,训练完成后,请参考查看日志和性能章节查看SFT微调的日志和性能。了解更多ModelArts训练功能,可查看模型开发简介。 父主题: 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6
操作不会收取费用。 单击“操作记录”可查看当前资源池替换节点的操作记录。“运行中”表示节点在替换中。替换成功后,节点列表中会显示新的节点名称。 替换最长时间为24小时,超时后仍然未找到合适的资源,状态会变为“失败”。可将鼠标悬浮在图标上,查看具体失败原因。 每天累计替换的次数不超
为了避免丢失训练进度、浪费算力,开启此功能前请确认代码已适配断点续训,操作指导请参见设置断点续训练。 当训练过程中触发了自动重启,则系统会记录重启信息,在训练作业详情页可以查看故障恢复详情,具体请参见训练作业重调度。 开启无条件自动重启 开启无条件自动重启有2种方式:控制台设置或API接口设置。 控制台设置 在创
执行结果如图3所示。注意,每输入一行代码,单击下“Run”运行。您也可以进入OBS管理控制台,检查“modelarts-test08/moxing”目录,查看“test01”文件夹是否已创建成功。更多MoXing的常用操作请参见MoXing常用操作的样例代码。 图3 运行示例 复制数据到OBS
支持1~90个字符,请勿在描述中输入涉政、迷信、违禁等相关敏感词,否则发布审核无法通过。 可见范围 “所有用户可见”:表示公开资产,所有用户都可以查看该资产。 “指定用户可见”:输入账号名、账号ID或用户昵称搜索并选择用户,使其可见该资产。 可用范围 选择是否启用“申请用户可用”。 勾选
FullAccess权限。 SWR OperateAccess 必选 CES云监控 授予子用户使用CES云监控服务的权限。通过CES云监控可以查看ModelArts的在线服务和对应模型负载运行状态的整体情况,并设置监控告警。 CES FullAccess 必选 SMN消息服务 授予子
置。 flavor 否 String 支持变更实例规格,支持变更的规格可以通过本章节的查询支持可切换规格列表的API获取。 image_id 否 String 支持更新镜像ID,镜像ID参考查询支持的镜像列表获取。 name 否 String 支持更新实例名称,长度限制为128个字符,
/llm_train/saved_dir_for_output/llama2-13b/saved_models/。 最后,请参考查看日志和性能章节查看sft微调的日志和性能。 步骤五 删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod,需要先找到config
/llm_train/saved_dir_for_output/llama2-13b/saved_models/。 最后,请参考查看日志和性能章节查看lora微调的日志和性能。 步骤五 删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所
面,单击“重试”。在重试之前您也可以前往权限管理页面修改配置,节点重试启动后新修改的配置信息可以在当前执行中立即生效。 停止 单击指定节点查看详情,可以对运行中的节点进行停止操作。 继续运行 对于单个节点中设置了需要运行中配置的参数时,节点运行会处于“等待操作”状态,用户完成相关
调用启动智能任务接口给图像分类的数据集创建一个智能标注任务。 调用获取智能任务的信息接口根据智能标注的任务ID查询任务详情。 待智能标注任务完成后,调用查询智能标注的样本列表接口可以查看标注结果。 调用批量更新样本标签根据获取的智能标注样本列表确认智能标注结果。 前提条件 已获取IAM的
”关键字查看。当容错检查正常通过时,可以减少运行故障上报问题。 容错检查失败时,会打印检查失败的日志。您可以通过在日志中搜索“item”关键字查看失败信息。 如果作业重启次数没有达到设定的次数,则会自动做重新下发作业。您可以通过搜索“error,exiting”关键字查找作业重启失败结束的日志。
scripts/llama2/0_pl_sft_13b.sh 或者: sh scripts/llama2/0_pl_sft_13b.sh 最后,请参考查看日志和性能章节查看SFT微调的日志和性能。 父主题: 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导(6
/llm_train/saved_dir_for_output/llama2-13b/saved_models/。 最后,请参考查看日志和性能章节查看预训练的日志和性能。 步骤五 删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod,需要先找到config
tart modelarts:devserver:stop modelarts:devserver:sync 创建实例、查询实例列表、查询租户所有实例列表、查询实例详情、删除实例、启动实例、停止实例、同步实例状态。 ECS ecs:serverKeypairs:createecs:*:get
可纠正ECC错误(单比特ECC错误),不影响业务。观测方式:nvidia-smi -a中查询到Volatile Correctable记录。 L2: 不可纠正ECC错误(多比特ECC错误),当次业务受损,重启进程可恢复。观测方式:nvidia-smi -a中查询到Volatile Uncorrectable记录。 L3: