检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
clone下载Megatron-LM、MindSpeed、ModelLink源码(install.sh中会自动下载配套版本,若手动下载源码还需修改版本)至llm_train/AscendSpeed文件夹中。下载的源码文件结构如下: |——AscendCloud-LLM |──llm_train
install -r requirements.txt && /bin/sh tools/run.sh Notebook中调试完后,如果镜像有修改,可以保存镜像用于后续训练,具体操作请参见保存Notebook镜像环境。 父主题: 单机多卡
使用用户组02中任意一个子账号登录ModelArts管理控制台。在登录页面,请使用“IAM用户登录”方式进行登录。 首次登录会提示修改密码,请根据界面提示进行修改。 验证ModelArts权限。 在左上角的服务列表中,选择ModelArts服务,进入ModelArts管理控制台。 在M
app_kind 取自首个ownerReferences的kind字段。 app_id 取自首个ownerReferences的uid字段。 app_name 取自首个ownerReferences的name字段。 npu_id 昇腾卡的ID信息,比如davinci0(即将废止)。
tput/llama2-13b/saved_models/pretrain_hf/目录下查看转换后的权重文件。 用户自定义执行权重转换参数修改说明 同样以 llama2 为例,用户可在Notebook直接编辑scripts/llama2/2_convert_mg_hf.sh脚本,
新增委托:如果没有委托可选,可以在新增委托中创建委托权限。对于首次使用ModelArts的用户,需要新增委托。 “新增委托 > 委托名称” 系统自动创建委托名称,用户可以手动修改。 “新增委托 > 权限配置 > 普通用户” 普通用户包括用户使用ModelArts完成AI开发的所有必要功能权限,如数据的访问、训练任务的创建和管理等。一般用户选择此项即可。
age_url}参见表2。 docker pull {image_url} Step3 启动容器镜像 启动容器镜像。启动前请先按照参数说明修改${}中的参数。 export work_dir="自定义挂载的工作目录" export container_work_dir="自定义挂载到容器内的工作目录"
像支持WebSocket。 设置“升级为WebSocket”后,不支持设置“服务流量限制”。 “升级为WebSocket”参数配置,不支持修改。 “运行日志输出” - 默认关闭,在线服务的运行日志仅存放在ModelArts日志系统,在服务详情页的“日志”支持简单查询。 如果开启此
态。 / / 查看标签 通过给资源池添加标签,可以标识云资源,便于快速搜索资源池。 在资源池详情页,切换到“标签”页签。您可以查看、添加、修改、删除资源池的标签信息。标签详细用法请参见ModelArts如何通过标签实现资源分组管理。 图5 标签 最多支持添加20个标签。 创建逻辑子池
新旧版训练预置引擎差异 新版的预置训练引擎默认安装Moxing2.0.0及以上版本。 新版的预置训练引擎统一使用了Python3.7及以上版本。 新版镜像修改了默认的HOME目录,由“/home/work”变为“/home/ma-user”,请注意识别训练代码中是否有“/home/work”的硬编码。
pip install -r requirements.txt 执行精度测试启动脚本eval_test.py,具体操作命令如下,可以根据参数说明修改参数。 python eval_test.py \ --max_workers=1 \ --service_name=llama2-13b-chat-test
件。模型训练及训练后的权重文件转换操作可以参考相关文档章节中提供的模型训练文档。 Step4 启动容器镜像 启动容器镜像前请先按照参数说明修改${}中的参数。 docker run -itd \ --device=/dev/davinci0 \ --device=/dev/davinci1
实例自动停止的倒计时信息。 name String 实例名称。 pool Pool object 专属池的基本信息,在专属池中创建的实例会返回该字段。 status String 实例状态。枚举值如下: INIT:初始化 CREATING:创建中 STARTING:启动中 STOPPING:停止中
sample_name String 根据样本名称搜索(含后缀名)。 sample_time String 样本加入到数据集时,会根据样本在OBS上的最后修改时间(精确到天)建立索引,此处可以根据此时间进行搜索。可选值如下: month:搜索往前30天至今天内添加的样本 day:搜索昨天(往前1天)至今天内添加的样本
__WORKFORCE_SAMPLED_REJECTED__:采样已驳回 __AUTO_ANNOTATION__:待确认 sample_time Long 样本时间,OBS最后修改时间。 sample_type Integer 样本类型。可选值如下: 0:图像 1:文本 2:语音 4:表格 6:视频 9:自由格式 score
clone下载Megatron-LM、MindSpeed、ModelLink源码(install.sh中会自动下载配套版本,若手动下载源码还需修改版本)至llm_train/AscendSpeed文件夹中。下载的源码文件结构如下: |——AscendCloud-LLM |──llm_train
json等tokenizer文件或者其他json文件。若缺少则需要直接复制至权重转换后的文件夹中,否则不能直接用于推理。 用户自定义执行权重转换参数修改说明 同样以 llama2 为例,用户可直接编辑 scripts/llama2/2_convert_mg_hf.sh 脚本,自定义环境变量
Interface (CRI) 与容器引擎交互,以管理镜像和容器。 您可以在创建时资源池时选择容器引擎,也可在资源池创建完成后,在扩缩容界面修改。其中Containerd调用链更短,组件更少,更稳定,占用节点资源更少,Containerd和Docker差异对比请见容器引擎。 若CCE集群版本低于1
x_stable_diffusion_img2img_mslite.py是从Stable Diffusion源码中的pipeline复制并修改的,这些文件在后续的章节中会使用并做进一步讲解。 图1 代码目录 将“modelarts-ascend/examples/AIGC/sta
__WORKFORCE_SAMPLED_REJECTED__:采样已驳回 __AUTO_ANNOTATION__:待确认 sample_time Long 样本时间,OBS最后修改时间。 sample_type Integer 样本类型。可选值如下: 0:图像 1:文本 2:语音 4:表格 6:视频 9:自由格式 score