检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
true:只读权限 false:默认值,读写权限 表15 host_path属性列表 参数 参数类型 说明 src_path String 宿主机的本地路径。 dest_path String 训练作业的本地路径。
用户可通过shell命令或python命令查询GPU使用信息。 使用shell命令 执行nvidia-smi命令。 依赖CUDA nvcc watch -n 1 nvidia-smi 执行gpustat命令。
在创建训练作业时,设置训练“输出”参数为“train_url”,在指定的训练输出的数据存储位置中保存Checkpoint,且“预下载至本地目录”选择“下载”。选择预下载至本地目录时,系统在训练作业启动前,自动将数据存储位置中的Checkpoint文件下载到训练容器的本地目录。
单击操作列的“下载”,选择保存路径单击“确认”,即可下载文件到本地。 删除文件 在镜像详情页,选择“镜像文件”页签。单击操作列的“删除”,确认后即可将已经托管的文件从AI Gallery仓库中删除。 文件删除后不可恢复,请谨慎操作。
图1 MLOps MLOps的整条链路需要有一个工具去承载,MLOps打通了算法开发到交付运维的全流程。和以往的开发交付不同,以往的开发与交付过程是分离的,算法工程师开发完的模型,一般都需要交付给下游系统工程师。
处理方法 “nvidia-smi”是一个NVIDIA GPU监视器命令行工具,用于查看GPU的使用情况和性能指标,可以帮助用户进行GPU优化和故障排除。 但是建议在业务软件或训练算法中,避免频繁使用“nvidia-smi”命令功能获取相关信息,存在锁死的风险。
方式三:通过Grafana查看所有监控指标 当AOM的监控模板不能满足用户诉求时,用户可以使用Grafana可视化工具来查看与分析监控指标。Grafana支持灵活而又复杂多样的监控视图和模板,为用户提供基于网页仪表面板的可视化监控效果,使用户更加直观地查看到实时资源使用情况。
从OBS中导入模型文件创建模型:如果您使用常用框架在本地完成模型开发和训练,可以将本地的模型按照模型包规范上传至OBS桶中,从OBS将模型导入至ModelArts中,创建为模型,直接用于部署服务。
进入ModelArts,创建Notebook实例 登录ModelArts管理控制台,在左侧菜单栏中选择“开发空间>Notebook”,进入“Notebook”管理页面。
shell语言: dos2unix 文件名 父主题: 代码运行故障
利用OBS Browser+工具将步骤1下载的数据集上传至步骤2创建的文件夹目录下。
场景二:已有本地镜像满足代码依赖的要求,但是不满足ModelArts训练平台约束,需要适配。 具体案例参考已有镜像迁移至ModelArts用于训练模型。 场景三: 当前无可使用的镜像,需要从0制作镜像(既需要安装代码依赖,又需要制作出的镜像满足ModelArts平台约束)。
利用OBS Browser+工具将步骤1下载的数据集上传至步骤2创建的文件夹目录下。
利用OBS Browser+工具将步骤1下载的数据集上传至步骤2创建的文件夹目录下。
Unsucessful TensorSliceReader constructor: Failed to find any matching files for xxx://xxx 原因分析 在ModelArts中,用户的数据都是存放在OBS桶中,而训练作业运行在容器中,无法通过访问本地路径的方式访问
在创建训练作业时,设置训练“输出”参数为“train_url”,在指定的训练输出的数据存储位置中保存Checkpoint,且“预下载至本地目录”选择“下载”。选择预下载至本地目录时,系统在训练作业启动前,自动将数据存储位置中的Checkpoint文件下载到训练容器的本地目录。
图5 分析Notebook本地的性能数据 如果您有两份性能数据想进行对比,可以点开Compared Profiling Data选项开关,然后分别在NPU Profiling Data和Compared Profiling Data项中输入性能数据所在的Notebook本地或OBS
工具相关介绍在benchmark代码目录。 约束限制 当前版本仅支持语言+图片多模态性能测试。 静态benchmark验证 本章节介绍如何进行静态benchmark验证。 已经上传benchmark验证脚本到推理容器中。
利用OBS Browser+工具将步骤1下载的数据集上传至步骤2创建的文件夹目录下。
cd /home/ma-user/datasets/fill50k unzip conditioning_images.zip unzip images.zip 接着修改fill50k.py文件,如果机器无法访问huggingface网站,则需要将脚本文件中下载地址替换为容器本地目录