检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
从Pod的生命周期,与Pod一起创建和删除。 使用临时存储路径 HostPath 适用于以下场景: 容器工作负载程序生成的日志文件需要永久保存。 需要访问宿主机上Docker引擎内部数据结构的容器工作负载。 节点存储。多个容器可能会共享这一个存储,会存在写冲突的问题。 Pod删除后,存储不会清理。
file则需要如下代码: 1 2 import moxing as mox mox.file.list_directory('obs://bucket_name/my_dir/') 引入MoXing Framework模块 使用MoXing Framework前,您需要在代码的开头先引入MoXing
conda activate python-3.9.10 (可选)如果需要在humaneval数据集上评估模型代码能力,请执行此步骤,否则忽略这一步。原因是通过opencompass使用humaneval数据集时,需要执行模型生成的代码。请仔细阅读human_eval/execution
conda activate python-3.9.10 (可选)如果需要在humaneval数据集上评估模型代码能力,请执行此步骤,否则忽略这一步。原因是通过opencompass使用humaneval数据集时,需要执行模型生成的代码。请仔细阅读human_eval/execution
配置。 目前仅支持SFT指令监督微调训练阶段。 代码目录 benchmark工具脚本存放在代码包AscendCloud-LLM-xxx.zip的LLM/LLaMAFactory/benchmark目录下,包含训练性能测试和训练精度测试脚本。 代码目录如下: benchmark ├──
云服务中。当您需要使用集群资源时,可以使用kubectl工具或k8s API来下发作业。此外,ModelArts还提供了扩缩容、驱动升级等功能,方便您对集群资源进行管理。 图2 使用流程 推荐您根据以下使用流程对Lite Cluster进行使用。 资源开通:您需要开通资源后才可使用Lite
3551:到obs检查输入数据目录是否存在,如果不存在,请按照实际需要创建obs目录;如果检查发现目录存在,但依然报同样的错,可以提工单申请技术支持 ModelArts.3567:用户只能访问自己账号下的obs目录,ModelArts在读取其他用户obs下的数据时,需要用户委托权限,没有创建委托,就没有权限使用其他用户obs中的数据。
配置。 目前仅支持SFT指令监督微调训练阶段。 代码目录 benchmark工具脚本存放在代码包AscendCloud-LLM-xxx.zip的LLM/LLaMAFactory/benchmark目录下,包含训练性能测试和训练精度测试脚本。 代码目录如下: benchmark ├──
04-x86_64,并且优化的超参类型为float类型,ModelArts支持用户使用超参搜索功能。 在0代码修改的基础下,实现算法模型的超参搜索。需要完成以下步骤: 准备工作 创建算法 创建训练作业 查看超参搜索作业详情 准备工作 数据已完成准备:已在ModelArts中创建可用的数据集
当前ModelArts支持访问在线服务的认证方式有以下方式(案例中均以HTTPS请求为例): Token认证:Token具有时效性,有效期为24小时,需要使用同一个Token鉴权时,可以缓存起来,避免频繁调用。 AK/SK认证:使用AK/SK对请求进行签名,在请求时将签名信息添加到消息头,从
单机多卡 准备镜像 上传数据和算法至SFS(首次使用时需要) 使用Notebook进行代码调试 创建训练任务 父主题: 调试与训练
在“我的模型”页面存在已创建成功的模型。 已准备好训练数据集,并存放于OBS桶中,OBS桶必须和MaaS服务在同一个Region下。 当需要永久保存日志时,需要准备好存放日志的OBS路径,OBS桶必须和MaaS服务在同一个Region下。 创建调优作业 登录ModelArts Studio控制台,在顶部导航栏选择目标区域。
多机多卡 线下容器镜像构建及调试 上传数据至OBS(首次使用时需要) 上传算法至SFS 创建训练任务 父主题: 调试与训练
使用PyCharm远程连接Notebook 使用PyCharm提交训练作业 操作指导 12:29 使用PyCharm提交训练作业 为什么需要云上AI开发 视频介绍 06:30 为什么需要云上AI开发 云上AI开发-调试代码 操作指导 23:43 云上AI开发-Notebook调试代码 云上AI开发-运行训练作业
33以下)配合使用时,可能会出现兼容问题,此时需要使用CUDA Compatibility。在创建训练页面添加以下环境变量: export LD_LIBRARY_PATH=/usr/local/cuda/compat 训练时默认不需要加此环境变量,仅当发现驱动版本不够时才使用此方法。
run启动,无法正常运行; 用户自行安装了Jupyterlab服务导致冲突的,需要用户本地使用Jupyterlab命令罗列出相关的静态文件路径,删除并且卸载镜像中的Jupyterlab服务; 用户自己业务占用了开发环境官方的8888、8889端口的,需要用户修改自己的进程端口号; 用户的镜像指定了PYTHONPATH、sys
存量作业运行完成后再进行升级,因需要等待作业完成,故升级周期可能比较长。 强制升级:忽略资源池中正在运行的作业,直接进行驱动升级,可能会导致运行中作业失败,需谨慎选择。 约束限制 Lite Cluster资源池状态处于运行中,且专属池中的节点需要含有GPU/Ascend资源。 资源池驱动升级操作
的开发者基于主流AI引擎,开发并训练其业务所需的模型。 评估模型 训练得到模型之后,整个开发过程还不算结束,需要对模型进行评估和考察。经常不能一次性获得一个满意的模型,需要反复的调整算法参数、数据,不断评估训练生成的模型。 一些常用的指标,如准确率、召回率、AUC等,能帮助您有效的评估,最终获得一个满意的模型。
单机单卡 线下容器镜像构建及调试 上传镜像 上传数据和算法至OBS(首次使用时需要) 使用Notebook进行代码调试 创建训练任务 监控资源 父主题: 调试与训练
Standard支持公共资源池和专属资源池。 公共资源池:方便快捷,无需创建,创建训练推理任务时直接选择即可。此时,忽略此步骤。 专属资源池:用户独占资源,需要先购买创建。如果使用专属资源池,需要完成此步骤。 创建Standard专属资源池 准备数据(可选) 创建数据集 ModelArts Standard提供了数