检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用自定义镜像创建训练作业找不到启动文件 问题现象 使用自定义镜像创建训练作业,出现如下报错,提示找不到运行的主文件:no such file or directory。 原因分析 根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。 处理方法 需要排查执行命令的启动文件目录是否正确,具体操作如下:
准备权重 获取对应模型的权重文件,获取链接参考表1。权重文件下载有如下几种方式,但不仅限于以下方式: 方法一:网页下载:通过单击表格中权重文件获取地址的访问链接,即可在模型主页的Files and Version中下载文件。文件会直接下载用户本地,需要再上传至SFS Turbo中。
Python:指本地使用Python对本地文件的操作接口。支持一键切换为对应的MoXing文件操作接口(mox.file)。 mox.file:指MoXing框架中用于文件操作的接口,其与python接口一一对应关系。 tf.gfile:指MoXing文件操作接口一一对应的TensorFl
获取对应模型的权重文件,获取链接参考表1。 在创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件,例如在桶standard-llama2-13b中创建文件夹llama2-13B-chat-hf。 参考文档利用OBS-Browser-Plus工具将步骤1下载的权重文件上传至步骤2创
获取对应模型的权重文件,获取链接参考表1。 在创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件,例如在桶standard-llama2-13b中创建文件夹llama2-13B-chat-hf。 参考文档利用OBS-Browser-Plus工具将步骤1下载的权重文件上传至步骤2创
选择OBS桶中训练code文件夹所在路径,例如“obs://test-modelarts/code/”。 启动文件 选择代码目录中训练作业的Python启动脚本。例如“obs://test-modelarts/code/main.py”。 超参 当资源规格为单机多卡时,需要指定超参world_size和rank。
查询团队标注的样本信息 查询数据集标签列表 创建数据集标签 批量修改标签 批量删除标签 按标签名称更新单个标签 按标签名称删除标签及仅包含此标签的文件 批量更新样本标签 查询数据集的团队标注任务列表 创建团队标注任务 查询团队标注任务详情 启动团队标注任务 更新团队标注任务 删除团队标注任务
runtime is found分析,是cuda runtime没有找到。 处理方法 建议您按以下步骤排查处理: 确认部署在线服务时是否选择了GPU规格。 在customize_service.py中添加一行代码os.system('nvcc -V)查看该镜像的cuda版本(customize_service
驱动版本与底层驱动不兼容 当对自定义镜像的驱动进行升级时,请确定底层驱动是否兼容。当前支持哪种驱动版本,请从基础镜像中获取。 文件权限不足 该问题可能为自定义镜像的用户与作业容器的用户不同导致的。请修改dockerfile文件: RUN if id -u ma-user > /dev/null
当AI应用的“可见范围”是“私密”时,才支持修改环境变量、可见范围或删除AI应用。 管理AI应用环境变量 AI应用支持增删改查环境变量,配置好的环境变量可以在运行文件中直接调用。 在AI应用详情页,选择“设置”页签。 在“环境变量管理”处,可以查看、新增、修改、删除环境变量。 最多支持创建100个环境变
都会自动重启训练作业,提高训练成功率和提升作业的稳定性。为了避免无效重启浪费算力资源,系统最多只支持连续无条件重启3次。 为了避免丢失训练进度、浪费算力,开启此功能前请确认代码已适配断点续训,操作指导请参见设置断点续训练。 当训练过程中触发了自动重启,则系统会记录重启信息,在训练
app_type String APP类型。枚举值如下: APIC:该APP注册在roma connect网关上 APIG:该APP注册在共享API网关上 DEDICATE_APIG:该APP注册在专享API网关上 bounded_api_count Integer APP绑定API数量。
indices_out_cuda_frame failed with error code 0” 问题现象 pytroch1.3镜像中,去升级了pytroch1.4的版本,导致之前在pytroch1.3跑通的代码报错如下: “RuntimeError:max_pool2d_wit
体步骤请参考创建资源池。 资源规格要求: 硬盘空间:至少200GB。 昇腾资源规格:可以申请Ascend: 1* ascend-snt9b(32GB)或Ascend: 1* ascend-snt9b(64GB)规格。请按需选择需要的规格,64GB规格的推理耗时更短。 推荐使用“西南-贵阳一”Region上的昇腾资源。
C:/Users/xx /test.pem: No such file or directory”如何解决? 问题现象 原因分析 密钥文件不存在于该路径下,或者该路径下密钥文件名被修改。 解决方法 重新选择密钥路径。 父主题: VS Code连接开发环境失败故障处理
代码中ModelLink、MindSpeed已升级到最新版本,Python三方依赖版本已升级,其中: MindSpeed的版本升级到commitID=4ea42a23 ModelLink的版本升级到commitID=8f50777 transformers版本升级到4.45.0 peft版本升级到0.12.0 训练支持的模型列表
代码中ModelLink、MindSpeed已升级到最新版本,Python三方依赖版本已升级,其中: MindSpeed的版本升级到commitID=4ea42a23 ModelLink的版本升级到commitID=8f50777 transformers版本升级到4.45.0 peft版本升级到0.12.0 训练支持的模型列表
max_model_len is greater than the drived max_model_len。 解决方法:修改config.json文件中的"seq_length"的值,"seq_length"需要大于等于 --max-model-len的值。config.json存在模型
非常多的可选规格,用户可以独占一个容器环境,不受其他人的干扰。只需简单配置,用户即可通过本地IDE连接到该环境进行运行和调试。 图1 本地IDE远程访问Notebook开发环境 Notebook可以视作是本地PC的延伸,均视作本地开发环境,其读取数据、训练、保存文件等操作与常规的本地训练一致。
该指标用于统计ModelArts用户服务的CPU使用率。 单位:百分比。 ≥ 0% ModelArts模型负载 1分钟 mem_usage 内存使用率 该指标用于统计ModelArts用户服务的内存使用率。 单位:百分比。 ≥ 0% ModelArts模型负载 1分钟 gpu_util GPU使用率 该指标用