搜索_华为云

常见错误原因和解决方法 - AI开发平台ModelArts

常见错误原因和解决方法显存溢出错误网卡名称错误父主题：主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
准备工作 - AI开发平台ModelArts
准备工作 - AI开发平台ModelArts

准备工作准备环境准备代码准备数据准备镜像父主题：主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911）
准备工作 - AI开发平台ModelArts
准备工作 - AI开发平台ModelArts

准备工作准备资源准备数据准备权重准备代码准备镜像父主题：主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）
创建模型失败，如何定位和处理问题？ - AI开发平台ModelArts

创建模型失败，如何定位和处理问题？问题定位和处理创建模型失败有两种场景：创建模型时直接报错或者是调用API报错和创建模型任务下发成功，但最终模型创建失败。创建模型时直接报错或者是调用API报错。一般都是输入参数不合法导致的。您可以根据提示信息进行排查修改即可。创建模型任务下发成功，

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
Lite Cluster资源开通 - AI开发平台ModelArts

25&1.28版本。若您没有可用的CCE集群，可先创建CCE集群。CCE 1.28集群版本支持通过控制台、API方式创建，CCE 1.23和CCE 1.25版本支持通过API方式创建。不同版本的CCE集群创建方式请见Kubernetes版本策略。若您已有CCE集群，但CCE集群版本低于1

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
用户结束kernelgateway进程后报错Server Connection Error，如何恢复？ - AI开发平台ModelArts

--KernelGatewayApp.ip=${HOST_IP} --KernelGatewayApp.port=8889 --KernelGatewayApp.api=${API_TYPE} --KernelGatewayApp.auth_token=${JPY_AUTH_TOKEN} --JupyterWebsocketPersonality

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
MoXing进阶用法的样例代码 - AI开发平台ModelArts

jpg', binary=True), np.uint8), cv2.IMREAD_COLOR) 将一个不支持OBS路径的API改造成支持OBS路径的API pandas中对h5的文件读写to_hdf和read_hdf既不支持OBS路径，也不支持输入一个文件对象，考虑以下代码会出现错误。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令
ModelArts的Notebook是否支持Keras引擎？ - AI开发平台ModelArts

as引擎？开发环境中的Notebook支持。训练作业和模型部署（即推理）暂时不支持。 Keras是一个用Python编写的高级神经网络API，它能够以TensorFlow、CNTK或者Theano作为后端运行。Notebook开发环境支持“tf.keras”。如何查看Keras版本

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
查看训练作业日志 - AI开发平台ModelArts

ASCEND_PROCESS_LOG_PATH=${task_plog_path} MindSpore的日志介绍请参见MindSpore官网。普通训练日志普通训练日志会生成到训练容器的“/home/ma-user/modelarts/log”目录中，且自动上传到OBS。普通训练日志的类型如下所示。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

CUDA-12.0。裸金属规格选择： GP Ant8，包含8张GPU卡以及8张RoCE网卡。关于Ant8裸金属服务器的购买，可以在华为云官网提工单至ModelArts云服务，完成资源的申请。步骤1 安装模型安装Megatron-DeepSpeed框架。使用root用户SS

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源使用
AIGC工具tailor使用指导 - AI开发平台ModelArts

pip install tailor-0.3.4-py3-none-any.whl 使用指导 tailor支持“命令行”和“Python API”两种方式使用。命令行方式命令行运行示例： tailor --model_path="./resnet50-v2-7.onnx"--config_path="

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
使用PyCharm上传数据至Notebook - AI开发平台ModelArts

S桶。将OBS中的数据传至Notebook中，通过在本地IDE的Terminal中使用ModelArts提供的Moxing库的文件操作API（mox.file.copy_parallel）完成。在PyCharm环境中开启Terminal，VS Code中操作类似。图2 PyCharm环境开启Terminal

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过PyCharm远程使用Notebook实例
管理训练容器环境变量 - AI开发平台ModelArts

po.myhuaweicloud.com/repository/pypi/simple/” MA_APIGW_ENDPOINT ModelArts API网关地址。 “MA_APIGW_ENDPOINT=https://modelarts.region..myhuaweicloud

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
终止训练作业 - AI开发平台ModelArts

obs_url String 训练作业日志保存的OBS地址。 host_path String 训练作业日志保存的宿主机的路径。表54 调用训练接口失败响应参数参数类型描述 error_msg String 调用失败时的错误信息，调用成功时无此字段。 error_code String

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

lusterRoleBinding）。 apiVersion: rbac.authorization.k8s.io/v1 kind: ClusterRole metadata: name: prometheus rules: - apiGroups: [""] resources:

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
查询训练作业详情 - AI开发平台ModelArts

obs_url String 训练作业日志保存的OBS地址。 host_path String 训练作业日志保存的宿主机的路径。表54 调用训练接口失败响应参数参数类型描述 error_msg String 调用失败时的错误信息，调用成功时无此字段。 error_code String

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
免费体验MaaS预置服务 - AI开发平台ModelArts

方式二：在业务环境中调用模型服务的API进行推理。在目标服务右侧，单击操作列的“调用”，在调用弹窗中获取API地址和调用示例，在业务环境中调用API进行体验。操作指导请参见调用MaaS部署的模型服务。预置服务默认启用内容审核，且调用页面不显示该参数。当调用模型服务的API，返回状态码“429

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
使用Server-Sent Events协议的方式访问在线服务 - AI开发平台ModelArts

SSE协议只支持部署在线服务。只支持自定义镜像导入模型部署的在线服务。调用API访问在线服务时，对预测请求体大小和预测时间有限制：请求体的大小不超过12MB，超过后请求会被拦截。因APIG（API网关）限制，平台每次请求预测的时间不超过40秒。 SSE在线服务调用 SSE协

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的传输协议
推理部署使用场景 - AI开发平台ModelArts

推理部署使用场景 AI模型开发完成后，在ModelArts服务中可以将AI模型创建为模型，将模型快速部署为推理服务，您可以通过调用API的方式把AI推理能力集成到自己的IT平台，或者批量生成推理结果。图1 推理简介训练模型：可以在ModelArts服务中进行，也可以在您的本地

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
查看诊断报告 - AI开发平台ModelArts

Issues'。训练时如果频繁进行算子编译会严重影响训练性能，可以增加两行python代码关闭算子编译。亲和API：对应html中的'Affinity API Issues'。通过使能亲和API（NPU融合算子API如rms_norm，NPU亲和优化器如NPUFusedAdamw）可以减少算子下发数量，从而提升训练性能。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导

总条数： 1193

上一页
1
...
55
56
57
...
60
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

常见错误原因和解决方法 - AI开发平台ModelArts

准备工作 - AI开发平台ModelArts

准备工作 - AI开发平台ModelArts

创建模型失败，如何定位和处理问题？ - AI开发平台ModelArts

Lite Cluster资源开通 - AI开发平台ModelArts

用户结束kernelgateway进程后报错Server Connection Error，如何恢复？ - AI开发平台ModelArts

MoXing进阶用法的样例代码 - AI开发平台ModelArts

ModelArts的Notebook是否支持Keras引擎？ - AI开发平台ModelArts

查看训练作业日志 - AI开发平台ModelArts

GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

AIGC工具tailor使用指导 - AI开发平台ModelArts

使用PyCharm上传数据至Notebook - AI开发平台ModelArts

管理训练容器环境变量 - AI开发平台ModelArts

终止训练作业 - AI开发平台ModelArts

使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

查询训练作业详情 - AI开发平台ModelArts

免费体验MaaS预置服务 - AI开发平台ModelArts

使用Server-Sent Events协议的方式访问在线服务 - AI开发平台ModelArts

推理部署使用场景 - AI开发平台ModelArts

查看诊断报告 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线