检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
co/01-ai/Yi-6B-Chat 14 yi-34b https://huggingface.co/01-ai/Yi-34B-Chat 15 ChatGLMv3 glm3-6b https://huggingface.co/THUDM/chatglm3-6b 16 Baichuan2
方式一:将已下载的模型文件通过SSH直接上传至SFS Turbo中。具体步骤如下: 进入到/mnt/sfs_turbo/目录下。创建目录“training_data”,将原始数据存放在/mnt/sfs_turbo/model目录下。 通过拖拽文件的方式,上传文件。使用CloudShell或者其它SSH远程工具
M-xxx.zip在本地解压缩后,将llm_train文件上传至OBS中。 结合准备数据、准备权重、准备代码,将数据集、原始权重、代码文件都上传至OBS后,OBS桶的目录结构如下。 <bucket_name> |──llm_train #
是必选的。 准备训练脚本。 from modelarts.train_params import TrainingFiles code_dir = os.path.join(base_local_path, "train/") # 这里提前将训练脚本放在了obs中,实际上训练
3.912代码包中AscendCloud-AIGC代码包结构介绍如下,训练脚本以分类的方式集中在scripts文件夹中: AscendCloud-AIGC-6.3.912-xxx ├─aigc_inference ├─aigc_train ├─AscendCloud-Pytorch-Plugin
5-14B-Chat Yi yi yi-6b https://huggingface.co/01-ai/Yi-6B-Chat yi-34b https://huggingface.co/01-ai/Yi-34B-Chat Qwen2 qwen qwen2-0.5b https://huggingface
详细操作指导请参考创建SFS Turbo文件系统。 图1 创建SFS Turbo 其中,文件系统类型推荐选用500MB/s/TiB或1000MB/s/TiB,应用于AI大模型场景中。存储容量推荐使用 6.0~10.8TB ,以存储更多模型文件。 图2 SFS类型和容量选择 创建ECS服务器 弹性云服务器(Elastic
详细操作指导请参考创建SFS Turbo文件系统。 图1 创建SFS Turbo 其中,文件系统类型推荐选用500MB/s/TiB或1000MB/s/TiB,应用于AI大模型场景中。存储容量推荐使用 6.0~10.8TB ,以存储更多模型文件。 图2 SFS类型和容量选择 创建ECS服务器 弹性云服务器(Elastic
co/01-ai/Yi-6B-Chat 14 yi-34b https://huggingface.co/01-ai/Yi-34B-Chat 15 ChatGLMv3 glm3-6b https://huggingface.co/THUDM/chatglm3-6b 16 Baichuan2
support onnx data type”,表示MindSpore暂不支持该算子。 报错日志中搜到“Convert graph to om failed”,表示CANN模块进行图编译存在保存,需要结合CANN的报错日志和dump图进行具体分析。 配置方式参考如下: 打开DEBUG日志。
监控Lite Cluster资源 使用AOM查看Lite Cluster监控指标 使用Prometheus查看Lite Cluster监控指标 父主题: Lite Cluster资源管理
创建训练作业提示错误码ModelArts.2763 问题现象 创建训练作业时,提示ModelArts.2763 : 选择的支持实例无效,请检查请求中信息的合法性。 原因分析 用户选择的训练规格资源和算法不匹配。 例如:算法支持的是GPU规格,创建训练作业时选择了ASCEND规格的资源类型。
安装ModelArts SDK报错“ERROR: Could not install packages due to an OSError” 问题现象 安装ModelArts SDK报错,完整报错信息“ERROR: Could not install packages due to
创建Notebook失败,查看事件显示JupyterProcessKilled 问题现象 创建Notebook失败,查看事件显示JupyterProcessKilled。 图1 查看事件 原因分析 出现此故障是因为Jupyter进程被清理掉了,一般情况Notebook会自动重启的
训练作业失败,如何使用开发环境调试训练代码? 在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。 配置本地IDE(Pycharm或者VsCode)联接云上环境调试请参考使用本地IDE开发模型。
在ModelArts的Notebook中使用VS Code调试代码无法进入源码怎么办? 如果已有launch.json文件,请直接看步骤三。 步骤一:打开launch.json文件 方法一:单击左侧菜单栏的Run(Ctrl+Shift+D)按钮,再单击create a launch
在ModelArts的Notebook中如何打开VS Code的配置文件settings.json? 在VS Code环境中执行Ctrl+Shift+P 搜Open User Settings (JSON) 父主题: Standard Notebook
获取训练作业日志的文件名 功能介绍 获取训练作业日志的文件名。 URI GET /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/log/file-names 参数说明如表1所示。 表1 参数说明 参数 是否必选
Server服务器共享网络资源。 单个弹性公网IP用于单个Server服务器 登录ModelArts管理控制台。 在左侧导航栏中,选择“AI专属资源池 > 弹性节点 Server”,进入“弹性节点 Server”列表页面。 单击Server服务器名称,进入Server服务器详情
ama-3.1-8B-Instruct/tree/main llama3.1-70b https://huggingface.co/meta-llama/Meta-Llama-3.1-70B-Instruct/tree/main Qwen1.5 qwen1.5-0.5b https://huggingface