检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CodeLab 如何将git clone的py文件变为ipynb文件 Notebook里面运行的实例,如果重启,数据集会丢失么? Jupyter可以安装插件吗? 是否支持在CodeLab中使用昇腾的卡进行训练? 如何在CodeLab上安装依赖? 父主题: Standard Notebook
AI Gallery AI Gallery的入口在哪里 在AI Gallery订阅商品失败怎么办? 在AI Gallery订阅的数据集可以在SDK中使用吗? AI Gallery支持哪些区域? AI Gallery下载数据到OBS中使用的带宽是用户自己的还是华为云的?
SFT全参微调训练任务 步骤一 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件和数据集到容器中,可以忽略此步骤。 如果未上传训练权重文件和数据集到容器中,具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。
LoRA微调训练 步骤一 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件和数据集到容器中,可以忽略此步骤。 如果未上传训练权重文件和数据集到容器中,具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。
权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。 2
预训练任务 步骤一 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件和数据集到容器中,可以忽略此步骤。 如果未上传训练权重文件和数据集到容器中,具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。
权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。 2
权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。 2
SFT全参微调训练任务 步骤一 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件和数据集到容器中,可以忽略此步骤。 如果未上传训练权重文件和数据集到容器中,具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。
左侧菜单栏选择“解决方案”进入解决方案列表页,单击右上方的“发布”,进入发布解决方案页面。 根据界面提示填写解决方案的相关信息,单击下方的“提交”。 在解决方案列表页可以查看发布的方案信息。 父主题: 合作伙伴
理配置profiling参数,确保能采集到16步的数据。 对于所有step稳定劣化的场景,避免采集第一个step的profiling即可,可以采集任意step如第15个step即可。 对于偶现且劣化现象出现的step数不固定的场景,则需要确保能采集到该不固定的step。 profiling数据采集请参考Ascend
为什么项目删除完了,仍然还在计费? 欠费后,ModelArts的资源是否会被删除? 部署后的AI应用是如何收费的? Notebook中的EVS存储可以使用套餐包吗?
训练作业的启动文件如何获取训练作业中的参数? 训练作业中使用os.system('cd xxx')无法进入相应的文件夹? 训练作业如何调用shell脚本,是否可以执行.sh文件? 训练代码中,如何获取依赖文件所在的路径? 自定义python包中如果引用model目录下的文件,文件路径怎么写 父主题:
有装上unidecode模块。 处理方法 将requirements.txt中的Unidecode改为unidecode。 建议与总结 您可以在训练代码里添加一行: os.system('pip list') 然后运行训练作业,查看日志中是否有所需要的模块。 父主题: 业务代码问题
如何访问训练作业的后台? 两个训练作业的模型都保存在容器相同的目录下是否有冲突? 训练输出的日志只保留3位有效数字,是否支持更改loss值? 训练好的模型是否可以下载或迁移到其他账号?如何获取下载路径? 父主题: Standard训练作业
rver资源。 准备代码 准备AscendSpeed训练代码、分词器Tokenizer和推理代码。 准备数据 准备训练数据,可以用本案使用的数据集,也可以使用自己准备的数据集。 准备镜像 准备训练模型适用的容器镜像。 预训练 预训练 介绍如何进行预训练,包括训练数据处理、超参配置、训练任务、性能查看。
rver资源。 准备代码 准备AscendSpeed训练代码、分词器Tokenizer和推理代码。 准备数据 准备训练数据,可以用本案使用的数据集,也可以使用自己准备的数据集。 准备镜像 准备训练模型适用的容器镜像。 预训练 预训练 介绍如何进行预训练,包括训练数据处理、超参配置、训练任务、性能查看。
模型训练 创建图像分类自动学习项目并完成图片标注,训练按钮显示灰色,无法开始训练? 自动学习项目中,如何进行增量训练? 自动学习训练后的模型是否可以下载? 自动学习为什么训练失败? 自动学习模型训练图片异常? 自动学习使用子账号单击开始训练出现错误Modelarts.0010 自动学习中偏好设置的各参数训练速度大概是多少
指定场景模型,无需深究底层模型开发细节。ModelArts PRO底层依托ModelArts平台提供数据标注、模型训练、模型部署等能力。也可以理解过增强版的自动学习,提供行业AI定制化开发套件,沉淀行业知识,让开发者聚焦自身业务。 父主题: 功能咨询
第1张和第2张卡,此处填写为“0,1”,以此类推。 export ASCEND_RT_VISIBLE_DEVICES=0,1 NPU卡编号可以通过命令npu-smi info查询。 执行权重转换。 cd autosmoothquant/examples/ python smoothquant_model