检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
LLM的入参名称,默认为0.9。 --trust-remote-code:是否相信远程代码。 --dtype:模型推理的数据类型。仅支持FP16和BF16数据类型推理。float16表示FP16,bfloat16表示BF16。 推理启动脚本必须名为run_vllm.sh,不可修改其他名称。
在创建训练作业时,设置训练“输出”参数为“train_url”,在指定的训练输出的数据存储位置中保存Checkpoint,且“预下载至本地目录”选择“下载”。选择预下载至本地目录时,系统在训练作业启动前,自动将数据存储位置中的Checkpoint文件下载到训练容器的本地目录。 图1 训练输出设置
在扩缩容页面,根据业务需要增删模型服务的实例数,配置完成后,单击“确认”提交扩缩容任务。 在我的服务列表,单击服务名称,进入服务详情页,可以查看修改后的实例数是否生效。 父主题: 管理我的服务
享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后,检查NPU卡状态。运行如下命令,返回NPU设备信息。 npu-smi info
配的情况。 如果上述方法还出现了错误,可以去notebook里面调试打印CUDA_VISIBLE_DEVICES变量,或者用以下代码测试,查看结果是否返回的是True。 import torch torch.cuda.is_available() 建议与总结 在创建训练作业前,推
添加所有者:在同一窗口中,单击“添加”,在弹出的新窗口中,单击“主体”后面的“选择主体”,弹出“选择用户,计算机,服务账户或组”窗口,单击“高级”,输入用户名, 单击“立即查找”按钮,显示用户搜索结果列表。 选择您的用户账户,然后单击“确定”(大约四个窗口)以关闭所有窗口。 图1 添加所有者 完成所有操作后,再次关闭并打开VS
metrics 否 object数据结构 模型的精度信息,包括平均数、召回率、精确率、准确率,metrics object数据结构说明如表2所示。 结果会显示在模型详情页面的“模型精度”模块。 apis 否 api数据结构数组 表示模型接收和返回的请求样式,为结构体数据。 即模型可对外提供的Restful
'feat_2': 'feat_2:0', 'feat_3': 'feat_3:0'} 不做数据集切分操作。如果选择未切分的数据集,算法将做纯训练场景; 父主题: 服务部署
XXXX类型的错误时,表示已进入模型服务,一般是模型推理代码编写有问题。 请根据构建日志报错信息,定位服务预测失败原因,修改模型推理代码后,重新导入模型进行预测。 经典案例:在线服务预测报错MR.0105 出现其他情况,优先检查客户端和外部网络是否有问题。 以上方法均未解决问题,请联系系统管理员。
是公网? 在同一区域,ModelArts通过OBS的API访问OBS中的文件属于内网通信,不消耗公网流量费。 如果是通过互联网从OBS下载数据到本地,这时候会产生OBS公网流量费。OBS的详细计费说明可以参见计费项。 父主题: API/SDK
0105,报错日志:“TypeError:‘float’object is not subscriptable”。 原因分析 根据报错日志分析,是因为一个float数据被当做对象下标访问了。 处理方法 将模型推理代码中的x[0][i]修改为x[i],重新部署服务进行预测。 父主题: 服务预测
timed out> 原因分析 由于安全性问题在ModelArts上不能联网下载。 处理方法 如果在运行训练作业时提示连接超时,请您将需要联网下载的数据提前下载至本地,并上传至OBS中。 父主题: 外网访问限制
exceeded 问题现象 报错提示OSError: [Errno 122] Disk quota exceeded。 原因分析 默认情况下,下载数据集缓存目录为“~/.cache/huggingface/dataset”,Huggingface缓存目录空间不足导致出现该报错。 处理方法
rm/dpo:dpo_en_demo 多模态数据集(图像):mllm_demo,identity 【可选】注册在dataset_info.json文件数据集名称。如选用定义数据请参考准备数据(可选)配置dataset_info.json文件,并将数据集存放于dataset_info.json同目录下。
支持1~90个字符,请勿在描述中输入涉政、迷信、违禁等相关敏感词,否则发布审核无法通过。 可见范围 “所有用户可见”:表示公开资产,所有用户都可以查看该资产。 “指定用户可见”:输入账号名、账号ID或用户昵称搜索并选择用户,使其可见该资产。 可用范围 选择是否启用“申请用户可用”。 勾选
添加所有者:在同一窗口中,单击“添加”,在弹出的新窗口中,单击“主体”后面的“选择主体”,弹出“选择用户,计算机,服务账户或组”窗口,单击“高级”,输入用户名, 单击“立即查找”按钮,显示用户搜索结果列表。 选择您的用户账户,然后单击“确定”(大约四个窗口)以关闭所有窗口。 图1 添加所有者 完成所有操作后,再次关闭并打开VS
O-1,Deepspeed-ZeRO-1替换为Deepspeed-ZeRO-2以此类推,重新训练如未解决则执行下一步。 - ZeRO-0 数据分布到不同的NPU - ZeRO-1 Optimizer States分布到不同的NPU - ZeRO-2 Optimizer States、Gradient分布到不同的NPU
享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 检查环境。 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info 如
l-len,推荐使用4096或8192。 --dtype:模型推理的数据类型。支持FP16和BF16数据类型推理。float16表示FP16,bfloat16表示BF16。如果不指定,则根据输入数据自动匹配数据类型。使用不同的dtype会影响模型精度。如果使用开源权重,建议不指定
支持1~90个字符,请勿在描述中输入涉政、迷信、违禁等相关敏感词,否则发布审核无法通过。 可见范围 “所有用户可见”:表示公开资产,所有用户都可以查看该资产。 “指定用户可见”:输入账号名、账号ID或用户昵称搜索并选择用户,使其可见该资产。 可用范围 选择是否启用“申请用户可用”。 勾选