搜索_华为云

训练作业卡死检测 - AI开发平台ModelArts

V1版本修改：file_io._NUMBER_OF_PROCESSES=1 V2版本修改：可以 file_io._LARGE_FILE_METHOD = 1，将模式设置成V1然后用V1的方式修改规避，也可以直接file_io._LARGE_FILE_TASK_NUM=1。复制文件夹时可采用： mox.file

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
使用AWQ量化工具转换权重 - AI开发平台ModelArts

transformers sentencepiece #安装量化工具依赖 export ASCEND_RT_VISIBLE_DEVICES=0 #设置使用NPU单卡执行模型量化 python examples/quantize.py 详细说明可以参考vLLM官网：https://docs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
服务启动失败 - AI开发平台ModelArts

创建模型界面上配置的健康检查地址与实际配置的是否一致如果使用的是ModelArts提供的基础镜像创建模型，健康检查URL默认必须为/health。图4 设置健康检查URL 模型推理代码customize_service.py编写有问题如果模型推理代码customize_service.py编

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
添加资源标签 - AI开发平台ModelArts

error_code String ModelArts错误码。 error_msg String 具体错误信息。请求示例为指定服务添加标签。设置TMS标签的key为“test”和“model_version”，TMS标签的value为“service-gpu”和“0.1”。 htt

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
模型调试 - AI开发平台ModelArts
模型调试 - AI开发平台ModelArts

source_type 否 String 模型来源的类型，当前仅可取值auto，用于区分通过自动学习部署过来的模型（不提供模型下载功能）；用户通过训练作业部署的模型不设置此值。默认值为空。 model_type 是 String 模型类型，取值为：TensorFlow/MXNet/Spark_

帮助中心 > AI开发平台ModelArts > SDK参考 > 模型管理
pipeline代码适配 - AI开发平台ModelArts

Lite进行推理时一般需要先设置目标设备的上下文信息，然后构建推理模型，获取输入数据，模型预测并得到最终的结果。一个基础的推理框架写法如下所示： # base_mslite_demo.py import mindspore_lite as mslite # 设置目标设备上下文为Ascend，指定device_id为0。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 应用迁移
查询算法列表 - AI开发平台ModelArts

resource_requirements Array of resource_requirements objects 算法资源约束，可不设置。设置后，在算法使用于训练作业时，控制台会过滤可用的公共资源池。 advanced_config advanced_config object

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
变更计费模式 - AI开发平台ModelArts

会生成新的订单，用户支付订单后，包年/包月资源将立即生效。假设用户于2023/04/18 15:29:16购买了一台按需计费的专属资源池，由于业务需要，于2023/04/18 16:30:30执行按需转包年/包月操作，生成类型为“按需转包年/包月”的订单。用户支付订单后，按需转

 帮助中心 > AI开发平台ModelArts > 计费说明
订阅使用 - AI开发平台ModelArts
订阅使用 - AI开发平台ModelArts

订阅使用查找和收藏资产订阅免费算法订阅免费模型下载数据使用Notebook代码样例使用镜像使用AI案例订阅Workflow 父主题： AI Gallery（旧版）

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版）
发布分享 - AI开发平台ModelArts
发布分享 - AI开发平台ModelArts

发布分享发布免费算法发布免费模型发布数据发布Notebook 父主题： AI Gallery（旧版）

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版）
参加活动 - AI开发平台ModelArts
参加活动 - AI开发平台ModelArts

参加活动报名实践活动（实践）发布技术文章（AI说）父主题： AI Gallery（旧版）

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版）
需求广场 - AI开发平台ModelArts
需求广场 - AI开发平台ModelArts

需求广场发布需求父主题： AI Gallery（旧版）

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版）
用户名密码认证模式 - AI开发平台ModelArts

用户名密码认证模式本模式支持OBS管理、训练管理、模型管理、服务管理的鉴权。示例代码账号与用户的概念介绍，请参见IAM基本概念。获取您的账号、用户名等信息，请参见获取用户名、用户ID、项目名称、项目ID。使用账号认证 “username”填写您的账号名。 1 2 from

帮助中心 > AI开发平台ModelArts > SDK参考 > Session鉴权
执行训练任务 - AI开发平台ModelArts

必须修改。用于指定模板。如果设置为"qwen"，则使用Qwen模板进行训练，模板选择可参照表1中的template列 output_dir /home/ma-user/ws/Qwen2-72B/sft-4096 必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
执行训练任务 - AI开发平台ModelArts

必须修改。用于指定模板。如果设置为"qwen"，则使用Qwen模板进行训练，模板选择可参照表1中的template列 output_dir /home/ma-user/ws/Qwen2-72B/sft-4096 必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
升级Lite Cluster资源池驱动 - AI开发平台ModelArts

前支持“按节点比例”和“按实例数量”两种滚动方式。按节点比例：每批次驱动升级的实例数量为“节点比例*资源池实例总数”。按实例数量：可以设置每批次驱动升级的实例数量。对于不同的升级方式，滚动升级选择实例的策略会不同：如果升级方式为安全升级，则根据滚动节点数量选择无业务的节点，隔离节点并滚动升级。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
配置多分支节点数据 - AI开发平台ModelArts

depend_steps=[job_step_1, job_step_2] # 依赖的作业类型节点对象 )# job_step是wf.steps.JobStep的实例对象，train_url是wf.steps.JobOutput的name字段值 workflow = wf.Workflow(name="data-select-demo"

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
查询模型runtime - AI开发平台ModelArts

X-Auth-Token 是 String 用户token。响应参数状态码：200 表4 响应Body参数参数参数类型描述 count Integer 不分页的情况下符合查询条件的总数量。 total_count Integer 当前查询结果的数量，不设置offset、limit查询参数时，count与total相同。

帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

ain.py”。超参当资源规格为单机多卡时，需要指定超参world_size和rank。当资源规格为多机时（即实例数大于 1），无需设置超参world_size和rank，超参会由平台自动注入。方式二：使用自定义镜像功能，通过torch.distributed.launch命令启动训练作业。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
更新算法 - AI开发平台ModelArts
更新算法 - AI开发平台ModelArts

resource_requirements 否 Array of ResourceRequirement objects 算法资源约束。可不设置。设置后，在算法使用于训练作业时，控制台会过滤可用的公共资源池。 advanced_config 否 AlgorithmAdvancedConfig

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理

总条数： 1526

上一页
1
...
56
57
58
...
77
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练作业卡死检测 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

服务启动失败 - AI开发平台ModelArts

添加资源标签 - AI开发平台ModelArts

模型调试 - AI开发平台ModelArts

pipeline代码适配 - AI开发平台ModelArts

查询算法列表 - AI开发平台ModelArts

变更计费模式 - AI开发平台ModelArts

订阅使用 - AI开发平台ModelArts

发布分享 - AI开发平台ModelArts

参加活动 - AI开发平台ModelArts

需求广场 - AI开发平台ModelArts

用户名密码认证模式 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

升级Lite Cluster资源池驱动 - AI开发平台ModelArts

配置多分支节点数据 - AI开发平台ModelArts

查询模型runtime - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

更新算法 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线