检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
905-20240611214128.zip 三方大模型训练和推理代码包 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 AscendCloud-3rdAIGC-6.3.905-20240529154412
#原始权重与tokenizer目录,需要用户手动创建,后续操作步骤中会提示 |── Llama2-70B |── tokenizers #tokenizer目录,需要用户手动创建,后续操作步骤中会提示 |──
├──install.sh #安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字 ├──vllm_ppl.py #ppl精度测试脚本
场景,满足不同AI模型训练的要求。 ModelArts Standard提供了公共资源池和专属资源池,专属资源池不与其他用户共享资源,更加高效。针对企业多用户场景,推荐使用专属资源池开展AI模型训练。 本文提供了端到端案例指导,帮助您快速了解如何在ModelArts Standa
908-xxx.zip 文件名中的xxx表示具体的时间戳,以包名的实际时间为准。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 镜像版本 本教程中用到基础镜像地址和配套版本关系如下表所示,请提前了解。
旧版中使用“算法管理”中已保存的算法创建训练作业的用户,可以在新版训练中使用“我的算法”创建训练作业。 旧版中使用“算法管理”中订阅的算法创建训练作业的用户,可以在新版训练中使用“我的订阅”创建训练作业。 旧版中使用“常用框架”创建训练作业的用户,可以在新版训练中使用“自定义算法”创建训练作业(启动方式选择“预置框架”)。
Code使用技巧 安装远端插件时不稳定,需尝试多次 Notebook实例重新启动后,需要删除本地known_hosts才能连接 使用VS Code调试代码时不能进入源码 使用VS Code提交代码时弹出对话框提示用户名和用户邮箱配置错误 实例重新启动后,Notebook内安装的插件丢失 VS Code中查看远端日志
推理服务有三种升级模式:全量升级、滚动升级(扩实例)和滚动升级(缩实例)。了解三种升级模式的流程,请参见图1。 全量升级 需要额外的双倍的资源,先全量创建新版本实例,然后再下线旧版本实例。 滚动升级(扩实例) 需额外消耗部分实例资源用于滚动升级,扩实例越大,升级速度越快。 滚动升级(缩实例) 通过腾出部分实例资源用于
签。 图1 添加标签 用户也可以在ModelArts任务中添加标签时,创建新的标签,直接输入标签键和标签值即可。此处创建的标签仅当前的项目Project可见。不同的项目中查看不到。 Step3 在TMS中根据资源类型查询ModelArts资源使用情况 登录TMS控制台,在资源标签
导出ModelArts数据集中的数据 针对数据集中的数据,用户可以选中部分数据或者通过条件筛选出需要的数据,导出成新的数据集。用户可以通过任务历史查看数据导出的历史记录。 目前只有“图像分类”、“物体检测”、“图像分割”类型的数据集支持导出功能。 “图像分类”只支持导出txt格式的标注文件。
自动学习物体检测项目,在图片标注完成后,通过模型训练得到合适的模型版本。 操作步骤 在新版自动学习页面,单击项目名称进入运行总览页面,单击“数据标注”节点的“实例详情”进入数据标注页面,完成数据标注。 图1 完成数据标注 返回新版自动学习页面,单击数据标注节点的“继续运行”,然后等待工作流按顺序进入训练节点。
费。 deploying:部署中,服务正在部署,调度资源部署等。 concerning:告警,后端实例异常,可能正在计费。例如多实例的情况下,有的实例正常,有的实例异常。正常的实例会产生费用,此时服务状态是concerning。 failed:失败,服务部署失败,失败原因可以查看事件和日志标签。
Notebook实例重新启动后,需要删除本地known_hosts才能连接 可以在本地的ssh config文件中对这个Notebook配置参数“StrictHostKeyChecking no”和“UserKnownHostsFile=/dev/null”,如下参考所示: Host
行确认数据集中的数据标注情况,也可以对数据集中的数据进行标签的修改,数据的增加或删减。 图1 数据标注节点状态 双击“数据标注”节点,单击实例详情按钮,打开数据标注页面。 文本分类的数据标注 在“标注对象列表”中选中待标注文本,然后单击“标签集”区域中不同标签进行标注。 一个文本对象只能添加一个标签。
如果推理结果不正确,请先排查原因,待能正常完成推理任务后再用该模型权重文件升级。 步骤2:滚动升级模型权重 当模型权重文件验证成功后,可以开始模型权重的滚动升级。 登录ModelArts管理控制台。 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。
原因,根据构建失败的原因进行排查处理。 图1 查看构建日志 常见问题 模型文件目录下不能出现dockerfile文件; “查看构建日志”中显示“Not only a Dockerfile in your OBS path, please make sure, The dockerfile
在统一身份认证服务页面的左侧导航选择“用户组”,在用户组页面查找待授权的用户组名称,在右侧的操作列单击“授权”,勾选步骤2创建的自定义策略,单击“下一步”,选择授权范围方案,单击“确定”。 此时,该用户组下的所有用户均有权限通过Cloud Shell登录运行中的训练作业容器。 如果没有用户组,也可以创建
开发环境 环境配置故障 实例故障 代码运行故障 JupyterLab插件故障 VS Code连接开发环境失败故障处理 自定义镜像故障 其他故障
continuous:指定时表示这个超参是连续类型的。连续类型的超参在算法使用于训练作业时,控制台显示为输入框。 - discrete:指定时表示这个超参是离散类型的。离散类型的超参在算法使用于训练作业时,控制台显示为下拉选择框架。 lower_bound 否 String 超参下界。 upper_bound
操作步骤 在开始训练之前,需要完成数据标注,然后再开始模型的自动训练。 在新版自动学习页面,单击项目名称进入运行总览页面,单击数据标注节点的“实例详情”进入数据标注页面,完成数据标注。 返回新版自动学习页面,单击数据标注节点的“继续运行”,然后等待工作流按顺序进入训练节点。 模型将会