搜索_华为云

日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

ror: connect() timed out”。原因分析出现该问题的可能原因如下：如果在此之前是有进行数据复制的，每个节点复制的速度不是同一个时间完成的，然后有的节点没有复制完，其他节点进行torch.distributed.init_process_group()导致超时。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
人工标注图片数据 - AI开发平台ModelArts

圆形。也可使用快捷键【3】。在标注对象中，选择物体的中心点位置，单击鼠标确定圆心，然后移动鼠标，使得圆形框覆盖标注对象，然后再单击鼠标完成标注。直线。也可使用快捷键【4】。在标注对象中，选择物体的起始点，单击鼠标确定直线的起始点，然后使得直线覆盖标注对象，然后再单击鼠标完成标注。虚线。也可使用快捷键【5】

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过人工标注方式标注数据
工具介绍及准备工作 - AI开发平台ModelArts

最优性能的配置。目前仅支持SFT指令监督微调训练阶段。准备工作参考benchmark-准备工作，开始训练测试，具体步骤参考训练性能测试或训练精度测试，根据实际情况决定。父主题：训练benchmark工具

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练benchmark工具
创建诊断任务 - AI开发平台ModelArts

p大于1时，advisor会对不同pp stage的训练profilingg数据进行分析。通过设置更大的进程数可以使能并行分析从而加快分析速度，但也会增大分析占用的cpu资源。通常单进程需要占用1U的cpu和一定cpu memory（取决于模型大小），请根据实际分析环境的资源规格

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

式并行训练中的通信优化能力，在使用NPU的场景下，支持对节点之间的通信路径根据交换机实际topo做网络路由亲和规划，进而提升节点之间的通信速度。本案例介绍如何在ModelArts Lite场景下使用ranktable路由规划完成Pytorch NPU分布式训练任务，训练任务默认使用Volcano

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
在ModelArts Studio基于Qwen2-7B模型实现新闻自动分类 - AI开发平台ModelArts

全参微调：直接在模型上训练，影响模型全量参数的微调训练，效果较好，收敛速度较慢，训练时间较长。 LoRA微调：冻结原模型，通过往模型中加入额外的网络层，并只训练这些新增的网络层参数，效果接近或略差于全参训练，收敛速度快，训练时间短。增量预训练：在现有预训练模型基础上，利用新数据或特

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
设置在线服务故障自动重启 - AI开发平台ModelArts

设置在线服务故障自动重启场景描述当系统检测到Snt9b硬件故障时，自动复位Snt9B芯片并重启推理在线服务，提升了推理在线服务的恢复速度。约束限制仅支持使用Snt9b资源的同步在线服务。只支持针对整节点资源复位，请确保部署的在线服务为8*N卡规格，请谨慎评估对部署在该节点的其他服务的影响。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
部署物体检测服务 - AI开发平台ModelArts

”，至此，已将模型部署为在线服务。服务测试服务部署节点运行成功后，单击“实例详情”可跳转至对应的在线服务详情页面。单击“预测”页签，进行服务测试。图1 服务测试下面的测试，是您在自动学习物体检测项目页面将模型部署上线之后进行服务测试的操作步骤。模型部署完成后，“服务部署

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现物体检测
部署文本分类服务 - AI开发平台ModelArts

线服务。服务测试服务部署节点运行成功后，单击“实例详情”可跳转至对应的在线服务详情页面。单击“预测”页签，进行服务测试。图1 服务测试下面的测试，是您在自动学习文本分类项目页面将模型部署上线之后进行服务测试的操作步骤。模型部署完成后，您可添加文本进行测试。在“自动学习”

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现文本分类
监控资源 - AI开发平台ModelArts
监控资源 - AI开发平台ModelArts

”、“gpuUtil”、“memUsage”“npuMemUsage”、“npuUtil”、可以添加或取消对应参数的使用情况图。操作三：鼠标悬浮在图片上的时间节点，可查看对应时间节点的占用率情况。表1 参数说明参数说明 cpuUsage cpu使用率。 gpuMemUsage

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
部署图像分类服务 - AI开发平台ModelArts

”，至此，已将模型部署为在线服务。服务测试服务部署节点运行成功后，单击“实例详情”可跳转至对应的在线服务详情页面。单击“预测”页签，进行服务测试。图1 服务测试下面的测试，是您在自动学习图像分类项目页面将模型部署上线之后进行服务测试的操作步骤。模型部署完成后，“在服务部

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现图像分类
部署预测分析服务 - AI开发平台ModelArts

线服务。服务测试服务部署节点运行成功后，单击“实例详情”可跳转至对应的在线服务详情页面。单击“预测”页签，进行服务测试。图1 服务测试下面的测试，是您在自动学习预测分析项目页面将模型部署上线之后进行服务测试的操作步骤。模型部署完成后，您可输入代码进行测试。在“自动学习”

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现预测分析
人工标注文本数据 - AI开发平台ModelArts

改。在标注作业详情页，单击“已标注”页签，在左侧文本列表中选中一行文本，右侧区域显示具体的标注信息。将鼠标移动至对应的实体标签或关系类型，单击鼠标右键，可删除此标注。单击鼠标左键，依次单击连接起始实体和终止实体，可增加关系类型，增加关系标注。图14 在文本中修改标签您也可以

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过人工标注方式标注数据
各个模型深度学习训练加速框架的选择 - AI开发平台ModelArts

DeepSpeed是一种深度学习加速框架，主要针对大规模模型和大规模数据集的训练。DeepSpeed的核心思想是在单个GPU上实现大规模模型并行训练，从而提高训练速度。DeepSpeed提供了一系列的优化技术，如ZeRO内存优化、分布式训练等，可以帮助用户更好地利用多个GPU进行训练 Accelerat

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

FS的网络协议。在使用裸金属服务器时，将数据放在SFS盘中，并发建立多个NFS链接、并发的读写数据、做大模型训练。但有时候会出现读取速度变慢的现象，并且SFS提示报错"rpc_check_timeout:939 callbacks suppressed"。原因分析根据S

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
Lite Server - AI开发平台ModelArts
Lite Server - AI开发平台ModelArts

Lite Server GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？如何将Ubuntu20.04内核版本从低版本升级至5.4.0-144-generic？如何禁止Ubuntu 20.04内核自动升级？

帮助中心 > AI开发平台ModelArts > 常见问题
精度校验 - AI开发平台ModelArts
精度校验 - AI开发平台ModelArts

ark工具对MindSpore Lite云侧推理模型进行基准测试。它不仅可以对MindSpore Lite云侧推理模型前向推理执行耗时进行定量分析（性能），还可以通过指定模型输出进行可对比的误差分析（精度）。精度测试 benchmark工具用于精度验证，主要工作原理是：固定模型

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
部署声音分类服务 - AI开发平台ModelArts

线服务。服务测试服务部署节点运行成功后，单击“实例详情”可跳转至对应的在线服务详情页面。单击“预测”页签，进行服务测试。图1 服务测试下面的测试，是您在自动学习声音分类项目页面将模型部署之后进行服务测试的操作步骤。模型部署完成后，您可添加音频文件进行测试。在“自动学习”

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现声音分类
标注物体检测数据 - AI开发平台ModelArts

色，方便识别。使用鼠标完成物体框选后，在弹出的对话框中，选择新的颜色，输入新的标签名称，即可添加一个新的标签。自动学习项目中，物体检测仅支持矩形标注框。在“资产管理 > 数据集”功能中，物体检测类型的数据集，支持更多类型的标注框。在标注窗口中，您可以滚动鼠标，放大或缩小图片，方便您快速定位到物体位置。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现物体检测
推理服务性能评测 - AI开发平台ModelArts

推理服务性能评测语言模型推理性能测试多模态模型推理性能测试父主题：主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912）

总条数： 272

上一页
1
2
3
4
5
...
14
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

人工标注图片数据 - AI开发平台ModelArts

工具介绍及准备工作 - AI开发平台ModelArts

创建诊断任务 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

在ModelArts Studio基于Qwen2-7B模型实现新闻自动分类 - AI开发平台ModelArts

设置在线服务故障自动重启 - AI开发平台ModelArts

部署物体检测服务 - AI开发平台ModelArts

部署文本分类服务 - AI开发平台ModelArts

监控资源 - AI开发平台ModelArts

部署图像分类服务 - AI开发平台ModelArts

部署预测分析服务 - AI开发平台ModelArts

人工标注文本数据 - AI开发平台ModelArts

各个模型深度学习训练加速框架的选择 - AI开发平台ModelArts

使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

Lite Server - AI开发平台ModelArts

精度校验 - AI开发平台ModelArts

部署声音分类服务 - AI开发平台ModelArts

标注物体检测数据 - AI开发平台ModelArts

推理服务性能评测 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线