检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查看Prometheus采集的指标数据 在CCE页面为Prometheus所在节点绑定弹性公网IP,并打开节点的安全组配置,添加入方向规则,允许外部访问9090端口。 如果使用Grafana对接Prometheus制作报表,可以将Grafana部署在集群内,这里不需要对Prometheus绑定公网IP和配置安全组
登录“统一身份认证服务”控制台,左侧菜单选择“权限管理 > 权限”,单击右上角“创建自定义策略”,创建自定义策略权限。 图3 统一身份认证服务添加权限 图4 创建自定义策略 权限内容如下: { "Version": "1.1", "Statement": [
名字,单击OK。 配置完成后,单击Test Connection测试连通性。 选择Yes,显示Successfully connected表示网络可以连通,单击OK。 在最下方再单击OK保存配置。 图2 配置SSH Step2 获取开发环境预置虚拟环境路径 单击“Tools > Start
准备镜像 镜像版本 本教程中用到基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2
步骤请参考创建资源池。 资源规格要求: 计算规格:用户可参考表2。 硬盘空间:至少200GB。 昇腾资源规格: Ascend: 1*ascend-snt9b表示昇腾单卡。 Ascend: 8*ascend-snt9b表示昇腾8卡。 推荐使用“西南-贵阳一”Region上的昇腾资源。
--benchmark-csv:结果保存路径,如benchmark_serving.csv。 --served-model-name: 选择性添加, 选择性添加,在接口中使用的模型名;如果没有配置,则默认为tokenizer。 --num-scheduler-steps: 需和服务启动时配置
等高级特性,以提高训练效率和性能 stage sft 表示当前的训练阶段。可选择值:pt、sft、rm、ppo、dpo。 pt代表预训练; sft代表指令监督微调; rm代表奖励模型训练; ppo代表PPO训练; dpo代表DPO训练。 finetuning_type full
章节ModelArts统一镜像列表。 各模块独有的镜像:仅适用单个模块(例如训练的预置镜像只能用于训练),此类镜像为ModelArts早期的镜像,后续会陆续下线。对应章节Notebook专属预置镜像列表、训练专属预置镜像列表、推理专属预置镜像列表。 自定义镜像:用户参照ModelArts镜像规范制作的镜像。
yaml文件内容。 dpo,复制dpo_yaml样例模板内容覆盖demo.yaml文件内容。 修改yaml文件(demo.yaml)的参数如表1所示。 表1 修改重要参数 参数 示例值 参数说明 model_name_or_path /home/ma-user/ws/tokenizers/Qwen2-72B
准备权重 获取对应模型的权重文件,获取链接参考表1。 在创建的OBS桶下创建文件夹用以存放权重文件,例如在桶中创建文件夹。将下载的权重文件上传至OBS中,得到OBS下数据集结构。此处以qwen-14b举例。 obs://${bucket_name}/${folder-name}/
准备权重 获取对应模型的权重文件,获取链接参考表1。 在创建的OBS桶下创建文件夹用以存放权重文件,例如在桶中创建文件夹。将下载的权重文件上传至OBS中,得到OBS下数据集结构。此处以qwen-14b举例。 obs://${bucket_name}/${folder-name}/
帮您实现项目资源隔离、多项目分开结算等功能。 如果您开通了企业项目管理服务的权限,可以在创建工作空间的时候绑定企业项目ID,并在企业项目下添加用户组,为不同的用户组设置细粒度权限供组里的用户使用。 如果您未开通企业项目管理服务的权限,也可以在ModelArts创建自己独立的工作空间,但是无法使用跟企业项目相关的功能。
Error tokenizing data. C error: Expected .* fields” 问题现象 使用pandas读取csv数据表时,日志报出如下错误导致训练作业失败: pandas.errors.ParserError: Error tokenizing data. C
使用MoXing训练模型,“global_step”放在Adam名称范围下,而非MoXing代码中没有Adam名称范围,如图1所示。其中1为使用MoXing代码,2代表非MoXing代码。 图1 代码示例 处理方法 Fine Tune就是用别人训练好的模型,加上自己的数据,来训练新的模型。相当于使用别人的模
等高级特性,以提高训练效率和性能 stage sft 表示当前的训练阶段。可选择值:pt、sft、rm、ppo、dpo。 pt代表预训练; sft代表指令监督微调; rm代表奖励模型训练; ppo代表PPO训练; dpo代表DPO训练。 finetuning_type full
进入训练作业详情页,在左侧获取SFS Turbo的名称。 图1 获取SFS Turbo的名称 登录弹性文件服务SFS控制台,在SFS Turbo列表找到训练作业挂载的SFS Turbo,单击名称进入详情页。获取VPC信息、安全组信息和endpoint信息。 VPC信息:SFS Turbo详情页的“虚拟私有云”。
Gallery。建议托管的模型文件列表参见表2。 表2 模型实例包含的文件 文件名称 描述 config.json 模型配置文件。 model.safetensors或pytorch_model.bin 预训练模型的权重文件。 tokenizer.json (可选)预处理器的词表文件,用于初始化Tokenizer。
strings SSH密钥对名称列表,允许设置多个密钥对实现同时对SSH实例的访问。 表7 EndpointsRes 参数 参数类型 描述 allowed_access_ips Array of strings 允许通过SSH协议访问Notebook的公网IP地址白名单列表,默认都可以访问。当
strings SSH密钥对名称列表,允许设置多个密钥对实现同时对SSH实例的访问。 表7 EndpointsRes 参数 参数类型 描述 allowed_access_ips Array of strings 允许通过SSH协议访问Notebook的公网IP地址白名单列表,默认都可以访问。当
镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 训练基础镜像 swr.cn-southwest-2.myhuaweicloud