检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
会导致实例重启,ImageNet数据集大小超过该限制,因此建议用线下资源调试、或用小批量数据集在Notebook调试(Notebook调试方法与使用Notebook进行代码调试、使用Notebook进行代码调试相同)。 创建训练任务 登录ModelArts管理控制台,检查当前账号
yaml相对或绝对路径,根据自己要求执行 <model_name>:训练模型名,如qwen2-7b <exp_name>:实验名称:具体可以设置的值参考<cfgs_yaml_file> --master_addr <master_addr>:主master节点IP,一般选rank0为主master。
S桶名称)。 “启动文件”:选择代码目录下上传的训练脚本“train.py”。 “输入”:单击“增加训练输入”,设置训练输入的“参数名称”为“data_url”。设置数据存储位置为您的OBS目录,例如 “/test-modelarts-xx/pytorch/mnist-data/
16,32 # 设置动态分档的档位,根据实际情况设置,另外请不要设置档位1(DeepSeek V2 236B W8A8 模型建议最大设置4个档位) export VLLM_ENGINE_ITERATION_TIMEOUT_S=1500 # 设置vllm请求超时时间(DeepSeek
如果本地为Linux系统,见原因分析二。 原因分析一 自动安装VS Code插件ModelArts-HuaweiCloud失败。 解决方法一 方法一:检查VS Code网络是否正常。在VS Code插件市场上搜索ModelArts-HuaweiCloud,如果显示如下则网络异常,请切换代理或使用其他网络。
作业调度到该节点而受到影响,并且使本次作业不受污点影响。当前可识别的故障类型如下,可通过隔离码及对应检测方法定位故障。 表1 隔离码 隔离码 分类 子类 异常中文描述 检测方法 A050101 GPU 显存 GPU ECC错误。 通过nvidia-smi -a查询到存在Pending
ion 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 instance_id 是 String 实例ID。 请求消息 请求参数如表2所示。 表2 请求参数 参数 是否必选
请求超时返回Timeout 问题现象 服务预测请求超时 原因分析 请求超时,大概率是APIG(API网关)拦截问题。需排查APIG(API网关)和模型。 处理方法 优先排查APIG(API网关)是否是通的,可以在本地使用curl命令排查,命令行:curl -kv {预测地址}。如返回Timeout则需排查本地防火墙,代理和网络配置。
配置Standard专属资源池可访问公网 场景介绍 当您使用专属资源池创建作业时(如训练作业),如果需要作业运行过程中需要专属资源池访问外网,可打通VPC的方式,使得专属资源池和已绑定EIP的弹性云服务器处于同一VPC内,实现专属资源池访问外网。 前提条件 已拥有需要部署SNAT的弹性云服务器。
16,32 # 设置动态分档的档位,根据实际情况设置,另外请不要设置档位1(DeepSeek V2 236B W8A8 模型建议最大设置4个档位) export VLLM_ENGINE_ITERATION_TIMEOUT_S=1500 # 设置vllm请求超时时间(DeepSeek
选择“对象存储服务OBS”或“并行文件系统PFS”作为存储位置。 选择“存储位置”:设置用于存储Notebook数据的OBS路径。如果想直接使用已有的文件或数据,可将数据提前上传至对应的OBS路径下。“存储位置”不能设置为OBS桶的根目录,需设置为对应OBS桶下的具体目录。 选择“凭据”:选择已有的凭据或
控制要考虑的前几个tokens的数量的整数。设置为-1表示考虑所有tokens。 适当降低该值可以减少采样时间。 top_p 否 1.0 Float 控制要考虑的前几个tokens的累积概率的浮点数。必须在 (0, 1] 范围内。设置为1表示考虑所有tokens。 temperature
16,32 # 设置动态分档的档位,根据实际情况设置,另外请不要设置档位1(DeepSeek V2 236B W8A8 模型建议最大设置4个档位) export VLLM_ENGINE_ITERATION_TIMEOUT_S=1500 # 设置vllm请求超时时间(DeepSeek
是否必选 参数类型 描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workforce_task_id 是 String 标注任务ID。 请求参数 表2 请求Body参数 参数 是否必选
控制要考虑的前几个tokens的数量的整数。设置为-1表示考虑所有tokens。 适当降低该值可以减少采样时间。 top_p 否 1.0 Float 控制要考虑的前几个tokens的累积概率的浮点数。必须在 (0, 1] 范围内。设置为1表示考虑所有tokens。 temperature
docker.com | sh sudo systemctl --now enable docker 步骤二:安装NVIDIA容器工具集 设置仓库地址和GPG key: distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
大小分为两部分:镜像大小和容器中新安装文件的大小。因此有两种方法来解决该问题: 减少容器中新安装文件的大小 删除用户在Notebook新安装的内容,比如用户在Notebook中下载了很多文件,可以将这些文件删除。这种方法仅适用于除/home/ma-user/work和/cache
JupyterLab浏览器左侧导航无法打开checkpoints 操作步骤: 打开Terminal,用命令行进行操作。 方法一:执行cd checkpoints命令打开checkpoints文件夹。 方法二:新建一个文件夹,移动checkpoints文件夹的数据到新建的文件夹下。 执行mkdir xx
_id} 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 instance_id 是 String 实例ID。 请求消息 无请求参数。 响应消息 响应参数如表2所示。 表2
百川和Llama系列模型只支持自定义权重。 自定义权重存储路径 当“权重设置与词表”选择“自定义权重”时,需要选择存放模型权重文件的OBS路径,必须选择到模型文件夹。单次上传本地文件到OBS的总大小不能超过5GB,详情请参见如何上传超过5GB的大对象。 权重校验 当“权重设置与词表”选择“自定义权重”时,需要选择是否开启权重文件校验。默认是开启的。