搜索_华为云

服务状态一直处于“部署中” - AI开发平台ModelArts

服务状态一直处于“部署中” 问题现象服务状态一直处于“部署中”，查看模型日志未发现服务有明显错误。原因分析一般情况都是模型的端口配置有问题。建议您首先检查创建模型的端口是否正确。处理方法模型的端口没有配置，如您在自定义镜像配置文件中修改了端口号，需要在部署模型时，配置对应的端口号，使新的模型重新部署服务。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
创建Notebook失败，查看事件显示JupyterProcessKilled - AI开发平台ModelArts

创建Notebook失败，查看事件显示JupyterProcessKilled。图1 查看事件原因分析出现此故障是因为Jupyter进程被清理掉了，一般情况Notebook会自动重启的，如果没有自动重启，创建一直失败，请确认是否是自定义镜像的问题。解决方案排查是否是自定义镜像的问题。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 实例故障
ModelArts计费模式概述 - AI开发平台ModelArts

越大。一般适用于计算资源需求量长期稳定的成熟业务。按需计费：一种后付费模式，即先使用再付费，按照ModelArts计算资源的实际使用时长计费，秒级计费，按小时结算。按需计费模式允许您根据实际业务需求灵活地调整资源使用，无需提前预置资源，从而降低预置过多或不足的风险。一般适用于资源需求波动的场景，可以即开即停。

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费模式
离线训练安装包准备说明 - AI开发平台ModelArts

离线训练安装包准备说明在华为公有云平台，申请的资源一般要求连通网络。因此用户在准备环境时可以运行 scripts/install.sh 直接下载安装资源，或通过 Dockerfile 下载安装资源并构建一个新的镜像。若用户的机器或资源池无法连通网络，并无法git clone下

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明参考
模型训练使用流程 - AI开发平台ModelArts

模型训练使用流程 AI模型开发的过程，称之为Modeling，一般包含两个阶段：开发阶段：准备并配置环境，调试代码，使代码能够开始进行深度学习训练，推荐在ModelArts开发环境中调试。实验阶段：调整数据集、调整超参等，通过多轮实验，训练出理想的模型，推荐在ModelArts训练中进行实验。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
管理员和开发者权限分离 - AI开发平台ModelArts

对于中小规模团队，管理员希望对ModelArts资源进行主导分配，全局控制，而对于普通开发者只需关注自己实例的生命周期控制。对于开发者账号，一般不会具有te_admin的权限，相应的权限也需要主账号进行统一配置。本章节以使用Notebook进行项目开发为例，通过自定义策略配置实现管理员和开发者分离。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
通过OBS创建模型时，构建日志中提示pip下载包失败 - AI开发平台ModelArts

通过OBS创建模型时，构建日志中提示pip下载包失败问题现象通过OBS创建模型构建失败，查看构建日志，提示pip下载包失败。如下载numpy 1.16版本失败。原因分析一般下载包失败时，可能有如下几个原因： pip源中不存在该包，当前默认pip源为pypi.org中的包，请在pypi.org中查看是否有对应版本的包并查看包安装限制。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

容，这部分配置尽量稳定减少变化。裸机上的开发形式建议开发者启动独立的Docker容器作为个人开发环境。Snt9b的裸机包含8卡算力资源，一般来说多人可以共用这个裸机完成开发与调测工作。多人使用为了避免冲突，建议各自在自己的docker容器中进行独立开发，并提前规划好每个人使用的具体卡号，避免相互影响。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
模型发布失败 - AI开发平台ModelArts

模型发布失败模型发布任务提交失败和模型发布失败问题，一般是因为后台服务故障导致的，建议稍等片刻，然后重新创建训练作业。如果重试超过3次仍无法解决，请获取如下信息，并联系华为云技术支持协助解决故障。获取模型ID。进入“模型管理”页面，在模型管理页面找到自动学习任务中自动创建的

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 模型发布
剪枝 - AI开发平台ModelArts
剪枝 - AI开发平台ModelArts

剪枝什么是剪枝剪枝是一种大模型压缩技术的关键技术，旨在保持推理精度的基础上，减少模型的复杂度和计算需求，以便大模型推理加速。剪枝的一般步骤是：1、对原始模型调用不同算法进行剪枝，并保存剪枝后的模型；2、使用剪枝后的模型进行推理部署。常用的剪枝技术包括：结构化稀疏剪枝、半结构化稀疏剪枝、非结构化稀疏剪枝。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
创建模型失败，如何定位和处理问题？ - AI开发平台ModelArts

创建模型失败有两种场景：创建模型时直接报错或者是调用API报错和创建模型任务下发成功，但最终模型创建失败。创建模型时直接报错或者是调用API报错。一般都是输入参数不合法导致的。您可以根据提示信息进行排查修改即可。创建模型任务下发成功，但最终模型创建失败。需要从以下几个方面进行排查：在

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

像构建自定义镜像，具体请参见使用ModelArts的基础镜像构建新的训练镜像。如镜像来源于第三方，设法找到自定义镜像的制作者咨询，制作者一般对镜像如何使用更加了解。确定自定义镜像大小自定义镜像的大小推荐15GB以内，最大不要超过资源池的容器引擎空间大小的一半。镜像过大会直接影响训练作业的启动时间。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
自定义镜像使用场景 - AI开发平台ModelArts

自定义镜像使用场景在AI业务开发以及运行的过程中，一般都会有复杂的环境依赖需要进行调测并固化。面对开发中的开发环境的脆弱和多轨切换问题，在ModelArts的AI开发最佳实践中，通过容器镜像的方式将运行环境进行固化，以这种方式不仅能够进行依赖管理，而且可以方便的完成工作环境切换

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard
部署上线失败 - AI开发平台ModelArts

部署上线失败出现此问题，一般是因为后台服务故障导致的，建议稍等片刻，然后重新部署在线服务。如果重试超过3次仍无法解决，请获取如下信息，并联系华为云技术支持协助解决故障。获取服务ID。进入“部署上线>在线服务”页面，在服务列表中找到自动学习任务中部署的在线服务，自动学习部署的

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 部署上线
自动学习训练作业失败 - AI开发平台ModelArts

自动学习训练作业失败自动学习训练作业创建失败，一般是因为后台服务故障导致的，建议稍等片刻，然后重新创建训练作业。如果重试超过3次仍无法解决，请联系华为云技术支持。自动学习训练作业创建成功，但是在运行过程中，由于一些故障导致作业运行失败，排查方式如下：首次出现请检查您的账户是

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 模型训练
发布本地AI应用到AI Gallery - AI开发平台ModelArts

构建出您需要的AI应用形态。准备AI应用运行文件“app.py” AI应用运行文件“app.py”的代码示例如下。其中，加粗的代码为必须保留的内容。 import gradio as gr import os POD_IP = os.getenv('POD_IP') // 获取容器IP

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery中的AI应用
使用CodeLab免费体验Notebook - AI开发平台ModelArts

系统每隔一段时间，将提醒确认下续期。免费的CodeLab主要用于体验，72小时内未使用，将释放资源。保存在其中的代码文档将丢失，请注意备份文件以及使用时长。 CodeLab入口 ModelArts管理控制台的“总览”页在“开发工具”区域下方，展示“CodeLab”简介卡片，单击“立即体验”，即可进入。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
故障恢复 - AI开发平台ModelArts
故障恢复 - AI开发平台ModelArts

这些可用区通过延迟低、吞吐量高且冗余性高的网络连接在一起。利用可用区，您可以设计和操作在可用区之间无中断地自动实现故障转移的应用程序和数据库。与传统的单个或多个数据中心基础设施相比，可用区具有更高的可用性、容错性和可扩展性。 ModelArts通过对DB的数据进行备份，保证在原数据被破坏或损坏的情况下可以恢复业务。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
自动模型优化介绍 - AI开发平台ModelArts

搜索尝试的超参组数 int，一般在10-20之间，值越大，搜索时间越长，效果越好 kind 采集函数类型 string，默认为'ucb'，可能取值还有'ei'、'poi'，一般不建议用户修改 kappa 采集函数ucb的调节参数，可理解为上置信边界 float，一般不建议用户修改 xi 采集函数poi和ei的调节参数

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 自动模型优化（AutoSearch）
日志提示"write line error" - AI开发平台ModelArts

本地数据、文件保存将"/cache"目录3.5T空间用完了。云上训练磁盘空间一般指如下两个目录的磁盘空间： “/”根目录，是docker中配置项“base size”，默认是10G，云上统一改为50G。 “/cache”目录满了，一般是3.5T存储空间满了，具体规格的空间大小可参见训练环境中不同规格资源“/cache”目录的大小。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障

总条数： 862

上一页
1
2
3
4
5
...
44
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

服务状态一直处于“部署中” - AI开发平台ModelArts

创建Notebook失败，查看事件显示JupyterProcessKilled - AI开发平台ModelArts

ModelArts计费模式概述 - AI开发平台ModelArts

离线训练安装包准备说明 - AI开发平台ModelArts

模型训练使用流程 - AI开发平台ModelArts

管理员和开发者权限分离 - AI开发平台ModelArts

通过OBS创建模型时，构建日志中提示pip下载包失败 - AI开发平台ModelArts

NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

模型发布失败 - AI开发平台ModelArts

剪枝 - AI开发平台ModelArts

创建模型失败，如何定位和处理问题？ - AI开发平台ModelArts

自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

自定义镜像使用场景 - AI开发平台ModelArts

部署上线失败 - AI开发平台ModelArts

自动学习训练作业失败 - AI开发平台ModelArts

发布本地AI应用到AI Gallery - AI开发平台ModelArts

使用CodeLab免费体验Notebook - AI开发平台ModelArts

故障恢复 - AI开发平台ModelArts

自动模型优化介绍 - AI开发平台ModelArts

日志提示"write line error" - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线