-
体验解决方案 - AI开发平台ModelArts
单击“免费试用”,如图所示,进入盘古大模型体验专区。 图1 进入盘古大模型体验专区 选择要体验的盘古大模型进行下一步操作。 单击大模型卡片的“查看详情”,可以进入大模型产品页查看解决方案详情。 如果已有体验权限,则单击“立即体验”,进入解决方案页面直接使用即可。 如果还没有体验权限,则单击“申请体验
-
Cann软件与Ascend驱动版本不匹配 - AI开发平台ModelArts
ModelArts上支持的Ascend驱动版本可以在ModelArts专属资源池(NEW)的详情页面查看到。ModelArts上支持的Cann软件版本可以在训练基础镜像详情页面查看,具体请参见训练基础镜像详情(Ascend-Powered-Engine)。 Ascend驱动版本与Cann软件版本的兼容关系如下表所示:
-
Step3 Notebook中保存镜像 - AI开发平台ModelArts
实例因运行时间到期停止,将导致镜像保存失败。 镜像保存成功后,实例状态变为“运行中”,用户可在“镜像管理”页面查看到该镜像详情。 单击镜像的名称,进入镜像详情页,可以查看镜像版本/ID,状态,资源类型,镜像大小,SWR地址等。 父主题: 无需构建直接在开发环境中调试并保存镜像用于推理
-
主流开源大模型基于DevServer适配PyTorch NPU训练指导(6.3.905) - AI开发平台ModelArts
主流开源大模型基于DevServer适配PyTorch NPU训练指导(6.3.905) 场景介绍 准备工作 预训练任务 SFT全参微调训练任务 LoRA微调训练 查看日志和性能 训练脚本说明 父主题: LLM大语言模型
-
算链操作 - AI开发平台ModelArts
算链操作 查看算链 算链编排界面说明 算链编排操作 上传/下载算链 运行算链 父主题: ML Studio
-
算子操作 - AI开发平台ModelArts
算子操作 查看算子 上传/下载自定义算子 编写自定义算子 自定义算子代码模板和规范 父主题: ML Studio
-
下载代码目录失败 - AI开发平台ModelArts
请您根据报错原因排查创建训练作业时指定的代码目录,即OBS桶的路径是否正确。有两种方法判断是否存在。 使用当前账户登录OBS管理控制台,去查找对应的OBS桶、文件夹、文件是否存在。 通过接口判断路径是否存在。在代码中执行如下命令,检查路径是否存在。 import moxing as
-
调试方式介绍 - AI开发平台ModelArts
这种方式是指在开发环境容器中直接运行AI应用。 部署到推理调试 这种方式是指将开发好的AI应用构建成应用镜像并部署到推理环境,通过在推理环境运行服务并查看日志的方式,确保开发好的AI应用可以正常部署。 父主题: 调试AI应用
-
节点管理 - AI开发平台ModelArts
操作不会收取费用。 单击“操作记录”可查看当前资源池替换节点的操作记录。“运行中”表示节点在替换中。替换成功后,节点列表中会显示新的节点名称。 替换最长时间为24小时,超时后仍然未找到合适的资源,状态会变为“失败”。可将鼠标悬浮在图标上,查看具体失败原因。 每天累计替换的次数不超
-
部署AI应用(部署上线) - AI开发平台ModelArts
部署AI应用(部署上线) 部署AI应用(在线服务) 部署AI应用(批量服务) 部署AI应用(边缘服务) 修改服务 启动、停止、删除、重启服务 查看服务的事件
-
主流开源大模型基于Standard适配PyTorch NPU训练指导(6.3.905) - AI开发平台ModelArts
主流开源大模型基于Standard适配PyTorch NPU训练指导(6.3.905) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 父主题: LLM大语言模型
-
弹性集群 - AI开发平台ModelArts
弹性集群 ModelArts资源池管理功能全面升级 创建资源池 查看资源池详情 扩缩容资源池 设置续费策略 调整到期策略 工作空间迁移 修改资源池作业类型 资源池驱动升级 修复Standard资源池故障节点 删除资源池 资源池异常处理 ModelArts网络 ModelArts节点
-
清除训练作业资源 - AI开发平台ModelArts
删除对应的训练作业。 进入OBS,删除本示例使用的OBS桶及文件。 完成资源清除后,您可以在总览页面的使用情况确认资源删除情况。 图1 查看使用情况 父主题: 完成一次训练
-
PyCharm ToolKit连接Notebook - AI开发平台ModelArts
用debug方式运行程序。 图13 使用debug方式运行程序 此时可以进入debug模式,代码运行暂停在该行,且可以查看变量的值。 图14 Debug模式下查看变量值 父主题: PyCharm Toolkit插件连接Notebook
-
无条件自动重启 - AI开发平台ModelArts
已适配断点续训,操作指导请参见断点续训练和增量训练。 当训练过程中触发了自动重启,则系统会记录重启信息,在训练作业详情页可以查看故障恢复详情,具体请参见查看故障恢复详情。 开启无条件自动重启 开启无条件自动重启有2种方式:控制台设置或API接口设置。 控制台设置 在创建训练作业页
-
自定义镜像软件版本匹配注意事项 - AI开发平台ModelArts
自定义镜像软件版本匹配注意事项 如果您的自定义镜像涉及NCCL、CUDA、OFED等软件库,当您制作自定义镜像时,您需要确保镜像中的软件库和ModelArts的软件库相匹配。您镜像中的软件版本需要满足以下要求: NCCL版本 ≥ 2.7.8。 OFED版本 ≥ MLNX_OFED_LINUX-5
-
发布解决方案 - AI开发平台ModelArts
左侧菜单栏选择“解决方案”进入解决方案列表页,单击右上方的“发布”,进入发布解决方案页面。 根据界面提示填写解决方案的相关信息,单击下方的“提交”。 在解决方案列表页可以查看发布的方案信息。 父主题: 合作伙伴
-
变更Notebook实例镜像 - AI开发平台ModelArts
变更镜像”,在变更镜像窗口选择新的镜像,单击“确定”。 图1 变更镜像 在镜像窗口选择新的镜像,单击“确定”,变更成功后,在Notebook列表页的镜像栏,可以查看到变更后的镜像。 父主题: 管理Notebook实例
-
日志提示“No module name 'unidecode'” - AI开发平台ModelArts
txt中的Unidecode改为unidecode。 建议与总结 您可以在训练代码里添加一行: os.system('pip list') 然后运行训练作业,查看日志中是否有所需要的模块。 父主题: 业务代码问题
-
使用GPU A系列裸金属服务器有哪些注意事项? - AI开发平台ModelArts
04安装NVIDIA 515+CUDA 11.7中的安装nvidia-fabricmanager方法。 NCCL必须和CUDA版本相匹配,可单击此处可查看配套关系和安装方法。 使用该裸金属服务器制作自定义镜像时, 必须清除残留文件,请参考清理文件。 父主题: FAQ