搜索_华为云

训练作业进程被kill - AI开发平台ModelArts

训练作业进程被kill 问题现象用户进程被Kill表示用户进程因外部因素被Kill或者中断，表现为日志中断。原因分析 CPU软锁在解压大量文件可能会出现此情况并造成节点重启。可以适当在解压大量文件时，加入sleep。比如每解压1w个文件，就停止1s。存储限制根据规格情况合理使用数

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
开发环境中不同Notebook规格资源“/cache”目录的大小 - AI开发平台ModelArts

ModelArts会挂载硬盘至“/cache”目录，用户可以使用此目录来储存临时文件。“/cache”与代码目录共用资源，不同资源规格有不同的容量。映射规则：当前不支持CPU配置cache盘；GPU与昇腾资源为单卡时，cache目录保持500G大小限制；除单卡外，cache盘大小与卡数有关，

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 更多功能咨询
ma-cli image镜像构建支持的命令 - AI开发平台ModelArts

which will share SWR image to DLI service. -d, --description TEXT Image description (default: ""). -C, --config-file PATH

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
删除网络资源 - AI开发平台ModelArts

project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 network_name 是 String 网络资源名称。请求参数无响应参数状态码： 200 表2 响应Body参数参数参数类型描述 apiVersion String API版本。可选值如下： v1

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
使用AWQ量化 - AI开发平台ModelArts

toAWQ bash build.sh 运行“examples/quantize.py”文件进行模型量化，量化时间和模型大小有关，预计30分钟~3小时。 pip install transformers==4.41.0 # AutoAWQ未适配transformers 4.42以上

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
在Workflow中更新已部署的服务 - AI开发平台ModelArts

在Workflow中更新已部署的服务场景介绍大部分场景下的工作流都是第一次运行部署新服务，后续进行模型迭代时，需要对已部署的服务进行更新。因此需要在同一条工作流中，同时支持服务的部署及更新能力。编写工作流基于编写工作流代码示例的场景案例进行改造，代码编写示例如下： from modelarts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
部署推理服务 - AI开发平台ModelArts

docker-runc.aarch64 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1，执行以下命令配置IP转发。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.905）
创建在线服务包 - AI开发平台ModelArts

创建在线服务包功能介绍计费工作流购买资源。接口约束无调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI POST /v2/{project_id}/workfl

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
如何将git clone的py文件变为ipynb文件 - AI开发平台ModelArts

如何将git clone的py文件变为ipynb文件在ipynb文件中，执行%load XXX.py命令，即可将py文件内容加载到ipynb中。以“test.py”文件为例，下图展示了如何将“test.py”的文件内容加载到ipynb文件中。图1 test.py文件图2 将“test

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > CodeLab
使用pip install时出现“没有空间”的错误 - AI开发平台ModelArts

使用pip install时出现“没有空间”的错误问题现象在Notebook实例中，使用pip install时，出现“No Space left...”的错误。解决办法建议使用pip install --no-cache ** 命令安装，而不是使用pip install

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 实例故障
管理模型训练作业 - AI开发平台ModelArts

管理模型训练作业查看训练作业详情查看训练作业资源占用情况查看模型评估结果查看训练作业事件查看训练作业日志修改训练作业优先级使用Cloud Shell调试生产训练作业重建、停止或删除训练作业管理训练容器环境变量查看训练作业标签父主题：使用ModelArts Standard训练模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
查询服务更新日志 - AI开发平台ModelArts

查询服务更新日志功能介绍查询实时服务更新日志。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/services/{service_id}/logs

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
创建网络资源 - AI开发平台ModelArts

是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。请求参数表2 请求Body参数参数是否必选参数类型描述 apiVersion 是 String API版本。可选值如下： v1 kind 是 String 资源类型。可选值如下：

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
查询服务监控信息 - AI开发平台ModelArts

service_instance_count Integer 服务实例数量。 req_count_per_min Long 服务分钟调用量，这里指当前时间上一分钟的服务调用总量。表5 Monitor 参数参数类型描述 failed_times Integer 模型实例调用失败次数，在线服务字段。

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
终止训练作业 - AI开发平台ModelArts

String 训练作业名称。限制为1-64位只含数字、字母、下划线和中划线的名称。 workspace_id String 指定作业所处的工作空间，默认值为“0”。 description String 对训练作业的描述，默认为“NULL”，字符串的长度限制为[0, 256]。 create_time

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
查看Lite Server服务器详情 - AI开发平台ModelArts

、镜像等信息。在弹性节点Server的节点列表页中，可以查看Server节点的状态、创建时间、计费模式、实例规格名称、核心硬件配置、私网IP地址和绑定的虚拟私有云名称。图1 查看Server节点单击某个Server节点名称，进入到Server节点详情页，可以查看更多信息，如表1所示。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
如何调用API - AI开发平台ModelArts

如何调用API 构造请求认证鉴权返回结果

 帮助中心 > AI开发平台ModelArts > API参考
查询APP详情 - AI开发平台ModelArts

APP类型。枚举值如下： APIC：该APP注册在roma connect网关上 APIG：该APP注册在共享API网关上 DEDICATE_APIG：该APP注册在专享API网关上 bounded_api_count Integer APP绑定API数量。 created_at

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
迁移效果校验 - AI开发平台ModelArts

迁移效果校验在pipeline适配完成后，需要验证适配后的效果是否满足要求，通过对比原始onnx pipeline的最终输出结果确认迁移效果。如果精度和性能都没有问题，则代表迁移完成。对比图片生成效果在CPU上推理onnx，将原始onnx和适配完成的MindSpore Lite

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
在ModelArts Standard上运行GPU多机多卡训练任务 - AI开发平台ModelArts

source /home/ma-user/anaconda3/envs/pytorch/bin/activate && \ pip install ipykernel==6.7.0 --trusted-host https://repo.huaweicloud.com -i https://repo

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练任务

总条数： 866

上一页
1
...
11
12
13
...
44
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练作业进程被kill - AI开发平台ModelArts

开发环境中不同Notebook规格资源“/cache”目录的大小 - AI开发平台ModelArts

ma-cli image镜像构建支持的命令 - AI开发平台ModelArts

删除网络资源 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

在Workflow中更新已部署的服务 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

创建在线服务包 - AI开发平台ModelArts

如何将git clone的py文件变为ipynb文件 - AI开发平台ModelArts

使用pip install时出现“没有空间”的错误 - AI开发平台ModelArts

管理模型训练作业 - AI开发平台ModelArts

查询服务更新日志 - AI开发平台ModelArts

创建网络资源 - AI开发平台ModelArts

查询服务监控信息 - AI开发平台ModelArts

终止训练作业 - AI开发平台ModelArts

查看Lite Server服务器详情 - AI开发平台ModelArts

如何调用API - AI开发平台ModelArts

查询APP详情 - AI开发平台ModelArts

迁移效果校验 - AI开发平台ModelArts

在ModelArts Standard上运行GPU多机多卡训练任务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线