正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
发布数据 在AI Gallery中,您可以将个人数据集分享给他人使用。 ModelArts数据管理模块在重构升级中,对未使用过数据管理的用户不可见。建议新用户选择发布OBS或本地的数据集。 前提条件 本地或对象存储服务(OBS)中已准备好待发布的数据集,或ModelArts的数据集列表存在待发布的数据集。
自定义镜像训练作业的时候,此参数为容器环境变量。该样例请参考表4。 spec_id 是 Long 训练作业选择的资源规格ID。请从查询作业资源规格接口获取资源规格ID。 data_url 否 String 训练作业需要的数据集OBS URL。如:“/usr/data/”。 不可与
ImportError: No module named npu_bridge.npu_init 检查下训练作业使用的规格是否支持NPU,有可能是训练时使用了GPU规格,导致发生了NPU相关调用报错。 建议与总结 在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。
是否只读 备注 /home/ma-user/work/ 否 客户数据的持久化目录。 /data 否 客户PFS的挂载目录。 /cache 否 裸机规格时支持,用于挂载宿主机NVMe的硬盘。 /train-worker1-log 否 兼容训练任务调试过程。 /dev/shm 否 用于PyTorch引擎加速。
TensorBoard可视化训练作业,当前仅支持基于TensorFlow、PyTorch版本镜像,CPU/GPU规格的资源类型。请根据实际局点支持的镜像和资源规格选择使用。 前提条件 为了保证训练结果中输出Summary文件,在编写训练脚本时,您需要在脚本中添加收集Summary相关代码。
TensorBoard可视化训练作业,当前仅支持基于TensorFlow、PyTorch版本镜像,CPU/GPU规格的资源类型。请根据实际局点支持的镜像和资源规格选择使用。 前提条件 为了保证训练结果中输出Summary文件,在编写训练脚本时,您需要在脚本中添加收集Summary相关代码。
当为自定义镜像训练作业的时候,此参数为容器环境变量。详细请参见表4 spec_id 是 Long 训练作业选择的资源规格ID。请从查询作业资源规格接口获取资源规格ID。 data_url 否 String 训练作业需要的数据集OBS URL。如:“/usr/data/”。 不可与
训练管理 训练作业 资源和引擎规格接口
用户选择了1/2/4卡这些规格的作业,然后设置了CUDA_VISIBLE_DEVICES=‘1’这种类似固定的卡ID号,与实际选择的卡ID不匹配。 处理方法 尽量代码里不要去修改CUDA_VISIBLE_DEVICES变量,用系统默认里面自带的。 如果必须指定卡ID,需要注意1/2/4规格下,指定
CUDA和CUDNN Vnt1机型软件版本建议 CUDA Compatibility如何使用? 专属池驱动版本如何升级? 父主题: FAQ
ModelArts自动学习是帮助用户实现AI应用的低门槛、高灵活、零代码的定制化模型开发工具。ModelArts团队对自动学习模块进行了架构与前端页面的升级,新版自动学习已于2023年6月上线,并已作为主入口面向用户开放,用户可实现在租户账号下管理个人的作业与资源。 下线旧版自动学习对现有用户的使用是否有影响?
str,Placeholder local_path 挂载到容器里面的路径 是 str,Placeholder 资源规格查询 您在创建作业类型节点之前可以通过以下操作来获取该账号所支持的训练资源规格列表以及引擎规格列表: 导包 from modelarts.session import Session from
CPU架构的自定义镜像分别只能运行于对应CPU架构的规格中。 执行如下命令,查看自定义镜像的CPU架构。 docker inspect {自定义镜像地址} | grep Architecture ARM CPU架构的自定义镜像,上述命令回显如下。 "Architecture": "arm64" 规格中带有ARM字样的显示,为ARM
方法四:使用Git clone,官方提供了 git clone repo_url 的方式下载,但是不支持断点续传,并且clone 会下载历史版本占用磁盘空间。 在创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件,例如在桶standard-llama2-13b中创建文件夹llama2-13B-chat-hf。
训练管理(旧版) 训练作业 训练作业参数配置 可视化作业 资源和引擎规格接口 作业状态参考 父主题: 历史API
时出现。 engine_id 是 Long 训练作业选择的引擎规格ID,默认为“1”。填入model_id后app_url/boot_file_url和engine_id无需填写。请从查询作业引擎规格接口获取引擎规格ID。 model_id 是 Long 训练作业的内置模型ID。
a. 学习率:lr b. batch size, micro batch size batch size会影响训练速度,有时候也会影响模型精度。micro batch size会影响流水线并行中设备的计算效率。 c. 切分策略:DP、TP、PP DP:data parallel 数据并行(data
Standard Notebook 规格限制 文件上传下载 数据存储 环境配置相关 Notebook实例常见错误 代码运行常见错误 CodeLab PyCharm Toolkit使用 VS Code使用技巧 VS Code连接开发环境失败常见问题 在Notebook中使用自定义镜像常见问题
术支持。 适配的Cann版本是cann_8.0.rc3。 资源规格要求 ModelArts Lite DevServer或ModelArts Stanard专属资源池的资源: 使用Ascend Snt9B单机单卡规格。 推荐使用“西南-贵阳一”Region上的昇腾资源。 软件配套版本
只会在一个节点上启动一个训练容器,该训练容器独享节点规格的可使用资源。 多机场景下(即选择的节点数大于1),ModelArts会优先在相同节点上启动一个parameter server(以下简称ps)和一个worker,平台会自动1:1分配ps与worker任务,例如2机场景,则会分配2ps与2