检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后,检查NPU卡状态。
当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。
常见案例 训练作业卡死常见现象的案例和解决方案如下: 复制数据卡死 训练前卡死 训练中途卡死 训练最后一个epoch卡死 父主题: 模型训练高可靠性
当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后,检查NPU卡状态。
并将数据存储路径通过指定的参数传递给训练脚本。
当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后,检查NPU设备检查。
ModelArts在任务执行过程中需要访问用户的其他服务,典型的就是训练过程中,需要访问OBS读取用户的训练数据。在这个过程中,就出现了ModelArts“代表”用户去访问其他云服务的情形。
mapping_rule Object 输入参数与csv数据的映射关系,仅当mapping_type为csv时会返回。 model_name String 模型名称。 src_type String 数据来源类型,仅当指定为ManifestFile时返回。
表1 OBS桶文件夹列表 文件夹名称 用途 “obs://test-modelarts/mpi/demo-code/” 用于存储MPI启动脚本与训练脚本文件。 “obs://test-modelarts/mpi/log/” 用于存储训练日志文件。
表1 OBS桶文件夹列表 文件夹名称 用途 “obs://test-modelarts/mpi/demo-code/” 用于存储MPI启动脚本与训练脚本文件。 “obs://test-modelarts/mpi/log/” 用于存储训练日志文件。
train_url String 可视化作业的日志存储路径。 job_id Long 可视化作业的ID。 resource_id String 可视化作业的计费资源ID。 请求示例 如下以查询正在部署中的作业,按递增排序,显示第1页前10个可视化作业为例。
常见案例 训练作业卡死常见现象的案例和解决方案如下: 复制数据卡死 训练前卡死 训练中途卡死 训练最后一个epoch卡死 父主题: 训练作业卡死
准备训练数据和代码文件,上传到JupyterLab中。具体参见上传本地文件至JupyterLab。 图4 文件上传按钮 在左侧导航双击打开上传的代码文件,在JupyterLab中编写代码文件,并运行调试。有关JupyterLab的使用具体参见JupyterLab常用功能介绍。
图3 运行示例 复制数据到OBS 在Notebook的在JupyterLab的服务界面,将文件yolov8_train_ascend.zip,复制到已有的OBS桶中,示例代码如下。
请确认操作Notebook的账号有权限读取OBS桶中的数据。具体操作请参见检查您的账号是否有该OBS桶的访问权限。 OBS文件被删除。请确认待上传的OBS文件是否存在。 异常场景2 图6 文件上传失败 可能原因: 文件名包含<>'";\`=#$%^&等特殊字符。
data Array<Array<String>> 超参搜索某个trial结果的每条数据列表。 请求示例 如以下查询training_job_id为5b60a667-1438-4eb5-9705-85b860e623dc的作业中trial为ae544174的信息。
在正常情况下,nvidia-smi进程通常只会短暂地出现D+状态,因为它们是由内核控制的,该进程处于等待I/O操作完成的状态,可能是在读取或写入GPU相关的数据,这是正常的操作。
├── benchmark_serving.py # 评测动态性能脚本 ├── benchmark_utils.py # 抽离的工具集 ├── generate_datasets.py # 生成自定义数据集的脚本
得到OBS下数据集结构,此处以llama2-13B为例(权重文件可能变化,以下仅为举例): obs://<bucket_name>/model/llama-2-13b-chat-hf/ ├── config.json ├── generation_config.json ├── gitattributes.txt
当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后,检查NPU设备检查。