检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
分页单次查询返回数。 请求参数 无 响应参数 状态码:200 表3 响应Body参数 参数 参数类型 描述 apiVersion String API版本。可选值如下: v2 kind String 资源类型。可选值如下: NodeList:节点列表 metadata NodeListMetadata
a3/envs/my-env 执行如下命令在my env里安装如下依赖包。 pip install ipykernel 如果遇到版本冲突,建议固定版本如下: pip install jupyter_core==5.3.0 pip install jupyter_client==8
执行如下命令确认Docker Engine版本。 docker version | grep -A 1 Engine 命令回显如下。 ... Engine: Version: 18.09.0 推荐使用大于等于该版本的Docker Engine来制作自定义镜像。
执行如下命令确认Docker Engine版本。 docker version | grep -A 1 Engine 命令回显如下。 ... Engine: Version: 18.09.0 推荐使用大于等于该版本的Docker Engine来制作自定义镜像。
保存即翻页,将导致前一页的标注信息丢失,需重新标注。 图2 数据标注-文本分类 添加或删除数据 自动学习项目中,数据来源为数据集中输入位置对应的OBS目录,当目录下的数据无法满足现有业务时,您可以在ModelArts自动学习页面中,添加或删除数据。 添加文件 在“未标注”页签下,
用户项目ID。获取方法请参见获取项目ID和名称。 job_id 是 Long 训练作业的ID。 version_id 是 Long 训练作业的版本ID。 请求消息 无请求参数。 响应消息 相应参数如表2所示。 表2 响应参数 参数 参数类型 说明 is_success Boolean
Warning:异常 请求参数 无 响应参数 状态码:200 表3 响应Body参数 参数 参数类型 描述 apiVersion String API版本。可选值如下: v1 kind String 资源类型。可选值如下: EventList:事件列表 metadata EventListMeta
分页查询时上一页位置。 请求参数 无 响应参数 状态码:200 表3 响应Body参数 参数 参数类型 描述 apiVersion String API版本。可选值如下: v1 kind String 资源类型。可选值如下: NetworkList:网络列表 metadata metadata
被服务器接收,且仍未被拒绝。 101 Switching Protocols 切换协议。只能切换到更高级的协议。 例如,切换到HTTP的新版本协议。 200 OK 接口调用成功。 201 Created 创建类的请求完全成功。 202 Accepted 已经接受请求,但未处理完成。
登录云审计服务管理控制台。 在管理控制台左上角单击图标,选择区域。 在左侧导航栏中,单击“事件列表”,进入“事件列表”页面。 事件列表支持通过筛选来查询对应的操作事件。当前事件列表支持四个维度的组合查询,详细信息如下: 事件来源、资源类型和筛选类型。 在下拉框中选择查询条件。 其中筛选类型选择
跳过。 确认Docker Engine版本。执行如下命令。 docker version | grep -A 1 Engine 命令回显如下。 Engine: Version: 18.09.0 推荐使用大于等于该版本的Docker Engine来制作自定义镜像。
创建调试训练作业 调试训练作业 模型训练前,一般会先对代码进行调试,ModelArts提供多种方式创建调试训练作业。 ModelArts提供了云化版本的JupyterLab,无需关注安装配置,即开即用。 ModelArts也提供了本地IDE的方式开发模型,通过开启SSH远程开发,本地ID
缓存文件与实际推理不匹配而报错。 如果要使用eagle投机,配置环境变量,使eagle投机对齐实验室版本实现。目前默认开启此模式,如果不开启,目前vllm0.6.3版本与实验室版本权重无法对齐,会导致小模型精度问题。 export EAGLE_USE_SAFE_AI_LAB_STYLE=1
搜索,看是否需要升级。检查Remote-ssh三方插件是否兼容。 4. 检查本地Vscode是否为最新版,最新版可能有bug,建议使用推荐版本v1.82。 如果以上步骤排查均无问题仍未解决,请联系技术支持定位。 父主题: VS Code连接开发环境失败故障处理
NODE_RANK、 NODE_RANK为必填。 执行单机启动命令(可选) 一般小于等于14B模型可选择单机启动,操作过程与多机启动相同,只需修改对应参数即可,可以选用单机启动。 进入代码目录/home/ma-user/ws/llm_train/LLaMAFactory下执行启动脚本,先修改以下命令中的参数,再复制执行。
行训练。 训练作业的预置框架介绍 ModelArts中预置的训练基础镜像如下表所示。 表1 ModelArts训练基础镜像列表 引擎类型 版本名称 PyTorch pytorch_1.8.0-cuda_10.2-py_3.7-ubuntu_18.04-x86_64 TensorFlow
DPO偏好训练、Reward奖励模型训练、PPO强化学习目前仅限制支持llama3系列。 PPO训练暂不支持llama3-70B,存在已知的内存OOM问题,待社区版本修复。 训练策略类型 全参full,配置如下: finetuning_type: full lora,如dpo仅支持此策略;配置如下: finetuning_type:
创建训练作业前需要先准备算法,可以订阅AI Gallery中的算法,也可以使用用户自己的算法。 准备算法 创建训练作业 创建一个训练作业,选择可用的数据集版本,并使用前面编写完成的训练脚本。训练完成后,将生成模型并存储至OBS中。 创建训练作业 管理模型 编写推理代码和配置文件 针对您生成的模型
资源池名称。 请求参数 无 响应参数 状态码:200 表2 响应Body参数 参数 参数类型 描述 apiVersion String API版本。可选值如下: v2 kind String 资源类型。可选值如下: NodePoolList:节点列表 items Array of NodePool
用户项目ID。获取方法请参见获取项目ID和名称。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 apiVersion 是 String API版本。可选值如下: v1 kind 是 String 资源类型。可选值如下: Network:网络 metadata 是 NetworkMetadataCreation