检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
部署预测分析服务 模型部署 模型部署操作即将模型部署为在线服务,并且提供在线的测试UI与监控能力。完成模型训练后,可选择准确率理想且训练状态为“运行成功”的版本部署上线。具体操作步骤如下。 在“运行节点”页面中,待训练状态变为“等待输入”,双击“服务部署”节点,完成相关参数配置。
om,引擎包选择步骤3构建的镜像。 图3 创建模型 将创建的模型部署为在线服务,大模型加载启动的时间一般大于普通的模型创建的服务,请配置合理的“部署超时时间”,避免尚未启动完成被认为超时而导致部署失败。 图4 部署为在线服务 调用在线服务进行大模型推理,请求路径填写/v2/mod
以前往权限管理页面修改配置,节点重试启动后新修改的配置信息可以在当前执行中立即生效。 停止 单击指定节点查看详情,可以对运行中的节点进行停止操作。 继续运行 对于单个节点中设置了需要运行中配置的参数时,节点运行会处于“等待操作”状态,用户完成相关数据的配置后,可单击“继续运行”按钮并确认继续执行当前节点。
当您需要修改训练作业的算法时,可以在训练作业详情页面右上角,单击“另存为算法”。 在“创建算法”页面中,会自动填充上一次训练作业的算法参数配置,您可以根据业务需求在原来算法配置基础上进行修改。 订阅算法不支持另存为算法。 重建训练作业 当对创建的训练作业不满意时,您可以单击操作列的重建,重新创建训
├──install.sh #安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字 ├──vllm_ppl.py
系统设置的默认值为128,表示数据包走交换机的队列4,队列4使用PFC流控机制来保证网络是无损的。 如果训练时,需要提升通信稳定性,可以增加配置其他NCCL环境变量,如表2所示。 表2 建议增加的环境变量 环境变量 建议值 说明 NCCL_IB_TIMEOUT 18 用于控制IB通信超时时间,算法为“4
修改服务个性化配置 服务个性化配置规则由配置条件、访问版本、自定义运行参数(包括配置项名称和配置项值)组成。 您可以为在线服务的不同版本设定不同配置条件,并支持携带自定义运行参数。 个性化配置规则的优先级与顺序相对应,从高到低设置。您可以通过拖动个性化配置规则的顺序更换优先级。
Step3 安装云端Python插件 在新打开的VS Code界面,单击左侧列表的Extensions选项,在搜索框中输入Python,在下拉列表中单击“Install”进行安装。 图8 安装云端Python插件 如果安装云端的Python插件不成功时,建议通过离线包的方式安装。具体操
“添加模型说明”,设置“文档名称”及其“URL”。模型说明最多支持3条。 “部署类型” 选择此模型支持部署服务的类型,部署上线时只支持部署为此处选择的部署类型,例如此处只选择在线服务,那您导入后只能部署为在线服务。当前支持“在线服务”、“批量服务”和“边缘服务”。 确认信息填写无误,单击“立即创建”,完成模型的创建。
仅支持使用Snt9b资源的同步在线服务。 只支持针对整节点资源复位,请确保部署的在线服务为8*N卡规格,请谨慎评估对部署在该节点的其他服务的影响。 开启故障自动重启 用户可以在部署在线服务任务时,勾选“高级选项”的“现在配置”,可以看到“故障自动重启”参数,打开开关即可。 图1 故障自动重启
务必保证OBS桶与ModelArts所在区域一致。 配置访问授权(权限管理) 登录ModelArts管理控制台,在左侧导航栏选择“权限管理”,进入“权限管理”页面。 单击“添加授权”,进入“访问授权”页面,根据参数说明进行配置。 图2 查看权限列表 然后勾选“我已经详细阅读并同意
├──install.sh #安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字 ├──vllm_ppl.py
Profiling数据采集 在train.py的main()函数Step迭代处添加配置,添加位置如下图所示: 此处需要注意的是prof.step()需要加到dataloder迭代循环的内部以保证采集单个Step迭代的Profiling数据。 更多信息,请参见Ascend PyTorch
如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y
原因分析 原因是集群没有安装ICAgent。新建特权池时默认会安装ICAgent,可能由于用户自行卸载ICAgent,导致资源池数据显示异常。 处理方法 登录“应用运维管理”控制台,在“配置管理 > Agent管理”中,选择未安装ICAgent的集群,并单击“安装ICAgent”。 图1
使用MobaXterm工具SSH连接Notebook后,经常断开或卡顿,如何解决? 问题现象 MobaXterm成功连接到开发环境后,过一段时间会自动断开。 可能原因 配置MobaXterm工具时,没有勾选“SSH keepalive”或专业版MobaXterm工具的“Stop server after”时间设置太短。
使用MobaXterm工具SSH连接Notebook后,经常断开或卡顿,如何解决? 问题现象 MobaXterm成功连接到开发环境后,过一段时间会自动断开。 可能原因 配置MobaXterm工具时,没有勾选“SSH keepalive”或专业版MobaXterm工具的“Stop server after”时间设置太短。
module name 'unidecode'” 问题现象 从mindspore开源gitee中master分支下载的tacotron2模型,修改配置文件后上传ModelArts准备训练,日志报错提示:No module name 'unidecode'。 原因分析 requirements
<baseline>:<可选>GP-Ant8机器精度基线Yaml文件路径,不填则使用工具自带基线配置,默认基线配置样例如下: 客户使用工具自带精度基线Yaml则需使用accuracy_cfgs.yaml文件中默认配置,权重使用表1 模型权重中指定的Huggingface地址,数据指定data.tgz里面提供的gsm8k数据。
<baseline>:<可选>GP-Ant8机器精度基线Yaml文件路径,不填则使用工具自带基线配置,默认基线配置样例如下: 客户使用工具自带精度基线Yaml则需使用accuracy_cfgs.yaml文件中默认配置,权重使用表1 模型权重中指定的Huggingface地址,数据指定data.tgz里面提供的gsm8k数据。