搜索_华为云

Lite Cluster使用流程 - AI开发平台ModelArts

个CCE集群。在ModelArts控制台购买Lite Cluster集群时，ModelArts的资源池会先纳管这个CCE集群，然后根据用户设置的规格创建相应的计算节点（BMS/ECS）。随后，CCE会对这些节点进行纳管，并且ModelArts会在CCE集群中安装npuDriver

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
调用MaaS部署的模型服务 - AI开发平台ModelArts

Int 控制要考虑的前几个Tokens的数量的整数。设置为“-1”表示考虑所有Tokens。适当降低该值可以减少采样时间。 top_p 否 1.0 Float 控制要考虑的前几个Tokens的累积概率的浮点数。取值范围：0~1 设置为“1”表示考虑所有Tokens。 temperature

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
创建Standard专属资源池 - AI开发平台ModelArts

配IPv6网段，暂不支持自定义设置IPv6网段，该功能一旦开启，将不能关闭。（如果创建网络时未勾选开启IPv6，也可在创建网络后在操作列单击“更多>启用IPv6”，如图2）图1 创建网络图2 启用IPv6 单用户最多可创建15个网络。网段设置以后不能修改，避免与将要打通的VPC网段冲突。可能冲突的网段包括：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

文件已添加指定的用户和用户组，您直接使用即可。用户只需要设置uid为1000的用户ma-user和gid为100的用户组ma-group，并使ma-user有对应目录的读写执行权限，其他如启动cmd不需要关心，无需设置或更改。 vim一个Dockerfile文件，添加第三方镜像

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
如何将多个物体检测的数据集合并成一个数据集？ - AI开发平台ModelArts

如何将多个物体检测的数据集合并成一个数据集？可以在OBS桶中创建一个父级目录，目录下面设置不同的文件夹，将多个数据集分别导出到这些文件夹里面，最后用父目录创数据集即可。登录ModelArts管理控制台，选择“数据管理>数据集”进入数据集概览页，单击右上角“导出”，将对应的数据

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据管理
配置Lite Cluster网络 - AI开发平台ModelArts

配置Lite Cluster网络本章节介绍如何申请弹性公网IP并绑定到弹性云服务器。通过本文档，您可以实现弹性云服务器访问公网的目的。使用华为云账号登录CCE管理控制台。找到购买Cluster资源时选择的CCE集群，单击名称进入CCE集群详情页面，单击“节点管理”页签，在“

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败问题现象在A系列GPU裸金属服务器上，系统环境是ubuntu20.04+nvidia515+cuda11.7，使用Pytorch2.0时出现如下错误： CUDA

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
精度问题诊断 - AI开发平台ModelArts

该方式主要是通过模型替换，先定位出具体哪个模型引入的误差，进一步诊断具体的模型中哪个算子或者操作导致效果问题，模型替换原理如下图所示。通过设置开关选项（是否使用onnx模型），控制模型推理时，模型使用的是onnx模型或是mindir的模型。图1 精度诊断流程一般情况下，onn

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 模型精度调优
查看Notebook实例事件 - AI开发平台ModelArts

用户可以在Notebook实例详情页中查看具体的事件，通过实例的事件，从而看到实例的运行或者异常等状态详情。在右侧可以手动刷新事件，也可以设置间隔30秒，1分钟，5分钟自动刷新事件。查看Notebook实例事件的方法单击Notebook名称，进入Notebook详情页，单击“事件”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
Notebook Cache盘告警上报 - AI开发平台ModelArts

service_id:xxx，然后单击“确定”。监控对象设置完成后，选择“统计方式”和“统计周期”。 “告警条件设置”：触发条件根据实际需求设置。图1 监控对象指标设置图2 设置指标统计方式图3 告警条件设置设置告警通知，单击“立即创建”。 “告警方式”：选择“直接告警”

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
包年/包月转按需 - AI开发平台ModelArts

进入“费用中心 > 续费管理”页面。自定义查询条件。可在“到期转按需项”页签查询已经设置到期转按需的资源。可对“手动续费项”、“自动续费项”、“到期不续费项”页签的资源设置到期转按需的操作。设置包年/包月资源到期后转按需。单个资源到期转按需：选择需要更改计费模式的实例，选择“操作

 帮助中心 > AI开发平台ModelArts > 计费说明 > 变更计费模式
使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed 问题现象弹性文件服务（Scalable File Service，SFS）提供按需扩展的高性能文件存储（NAS），可以在裸金属服务器中通过网络协议挂载使用，SFS支持NFS

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
训练代码中，如何获取依赖文件所在的路径？ - AI开发平台ModelArts

训练代码中，如何获取依赖文件所在的路径？由于用户本地开发的代码需要上传至ModelArts后台，训练代码中涉及到依赖文件的路径时，用户设置有误的场景较多。因此推荐通用的解决方案：使用os接口得到依赖文件的绝对路径，避免报错。以下示例展示如何通过os接口获得其他文件夹下的依赖文件路径。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 编写训练代码
创建训练任务 - AI开发平台ModelArts

创建训练任务针对专属池场景，应注意挂载的目录设置和调试时一致。登录ModelArts管理控制台，检查当前帐号是否已完成访问授权的配置。如果未完成，请参考使用委托授权。针对之前使用访问密钥授权的用户，建议清空授权，然后使用委托进行授权。在左侧导航栏中选择“模型训练 > 训练作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
创建训练作业提示错误码ModelArts.2763 - AI开发平台ModelArts

用户选择的训练规格资源和算法不匹配。例如：算法支持的是GPU规格，创建训练作业时选择了ASCEND规格的资源类型。处理方法查看算法代码中设置的训练资源规格。检查创建训练作业时所选的资源规格是否正确，重新创建训练作业选择正确的资源规格。父主题：云上迁移适配故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
训练作业的日志出现detect failed（昇腾预检失败） - AI开发平台ModelArts

用户的自定义镜像中的ascend相关工具不可用，导致预检失败。处理方法通过给训练作业加环境变量“MA_DETECT_TRAIN_INJECT_CODE”并将对应的值设置成0，就可以将预检功能关闭。环境变量说明参考查看训练容器环境变量。父主题： Ascend相关问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > Ascend相关问题
使用MaaS调优模型 - AI开发平台ModelArts

学习率/learning_rate 设置每个迭代步数（iteration）模型参数/权重更新的速率。学习率设置得过高会导致模型难以收敛，过低则会导致模型收敛速度过慢。取值范围：0~0.1 默认值：0.00002 建议微调场景的学习率设置在10-5这个量级。资源设置资源池类型资源池分为公共资源池与专属资源池。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
模型的自定义镜像制作流程 - AI开发平台ModelArts

的“keep-alive”参数设置为200s。以gunicorn服务框架为例，gunicorn缺省情形下不支持keep-alive，需要同时安装gevent并配置启动参数“--keep-alive 200 -k gevent”。不同服务框架参数设置有区别，请以实际情况为准。（可

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于推理
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

式读取训练数据文件。创建SFS Turbo文件系统前提条件：创建SFS Turbo文件系统前，确认已有可用的VPC。需要由IAM用户设置SFS Turbo FullAccess权限，用于授权ModelArts云服务使用SFS Turbo。详细操作指导请参考创建SFS Turbo文件系统。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

式读取训练数据文件。创建SFS Turbo文件系统前提条件：创建SFS Turbo文件系统前，确认已有可用的VPC。需要由IAM用户设置SFS Turbo FullAccess权限，用于授权ModelArts云服务使用SFS Turbo。详细操作指导请参考创建SFS Turbo文件系统。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.910） > 准备工作

总条数： 848

上一页
1
...
8
9
10
...
43
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Lite Cluster使用流程 - AI开发平台ModelArts

调用MaaS部署的模型服务 - AI开发平台ModelArts

创建Standard专属资源池 - AI开发平台ModelArts

在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

如何将多个物体检测的数据集合并成一个数据集？ - AI开发平台ModelArts

配置Lite Cluster网络 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

精度问题诊断 - AI开发平台ModelArts

查看Notebook实例事件 - AI开发平台ModelArts

Notebook Cache盘告警上报 - AI开发平台ModelArts

包年/包月转按需 - AI开发平台ModelArts

使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

训练代码中，如何获取依赖文件所在的路径？ - AI开发平台ModelArts

创建训练任务 - AI开发平台ModelArts

创建训练作业提示错误码ModelArts.2763 - AI开发平台ModelArts

训练作业的日志出现detect failed（昇腾预检失败） - AI开发平台ModelArts

使用MaaS调优模型 - AI开发平台ModelArts

模型的自定义镜像制作流程 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线