搜索_华为云

日志提示"write line error" - AI开发平台ModelArts

“/cache”目录满了，一般是3.5T存储空间满了，具体规格的空间大小可参见训练环境中不同规格资源“/cache”目录的大小。处理方法如果在训练作业的工作目录下有core文件生成，可以在启动脚本最前面加上如下代码，来关闭core文件产生。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
Eagle投机小模型训练 - AI开发平台ModelArts

--model_type str 使用模型类型，目前支持llama系列（填写llama）及qwen2（填写qwen2） --model_name str LLM的基模型地址，如.

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 投机推理
DockerFile构建镜像（可选） - AI开发平台ModelArts

示例：pytorch_2_2_ascend:20241106 install_type:安装类型，默认为all，可选【modellink、llmafactory、all】构建镜像前需保证Dockerfile文件内容中镜像名与本文档镜像保持一致，如不同则需修改为一致。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 准备工作
训练作业重调度 - AI开发平台ModelArts

在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。在训练作业列表中，单击作业名称进入训练作业详情页面。在训练作业详情页面，单击“故障恢复详情”页签查看故障恢复信息。图1 查看故障恢复详情父主题：模型训练高可靠性

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
执行训练任务（推荐） - AI开发平台ModelArts

执行训练任务（推荐）新的训练方式将统一管理训练日志、训练结果和训练配置，使用yaml配置文件方便用户根据自己实际需求进行修改。推荐用户使用该方式进行训练。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
模型训练使用流程 - AI开发平台ModelArts

您还可以基于不同的数据，选择不同规格的资源池用于模型训练。请参考以下指导在ModelArts Standard上训练模型。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
SFT全参微调训练 - AI开发平台ModelArts

图2 开启故障重启 Step5 其他配置选择用户自己的专属资源池，以及规格与节点数。本次qwenvl模型选用 8* ascend-snt9b。图3 选择资源池规格在OBS中新建一个log目录，作业日志选择OBS中的该路径，训练作业的日志信息则保存该路径下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）
LoRA微调训练 - AI开发平台ModelArts

图2 开启故障重启 Step5 其他配置选择用户自己的专属资源池，以及规格与节点数。本次qwenvl模型选用 8* ascend-snt9b。图3 选择资源池规格在OBS中新建一个log目录，作业日志选择OBS中的该路径，训练作业的日志信息则保存该路径下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）
GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

Oracle 1521 Oracle通信端口，弹性云服务器上部署了Oracle SQL需要放行的端口。 MySQL 3306 MySQL数据库对外提供服务的端口。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
批量服务输入/输出obs目录不存在或者权限不足 - AI开发平台ModelArts

登录ModelArts控制台，管理控制台，在左侧导航栏中选择“权限管理”，单击“查看权限”，检查是否配置了obs的委托权限。图1 查看权限如果检查后已经存在委托，但是仍然无法访问，可以提工单寻求技术支持。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
训练精度测试 - AI开发平台ModelArts

model_name> <exp_name> <cfgs_yaml_file>：精度测试配置的yaml文件地址，指代码目录中accuracy_cfgs.yaml相对或绝对路径 <model_name>：训练模型名，如qwen2.5-7b <exp_name>：实验名称：包含训练策略类型及数据序列长度

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练benchmark工具
步骤总览 - AI开发平台ModelArts
步骤总览 - AI开发平台ModelArts

工作空间配置训练：线下容器镜像构建及调试上传镜像上传数据和算法至OBS（首次使用时需要）使用Notebook进行代码调试创建训练任务单机多卡资源购买：购买虚拟私有云VPC 购买弹性文件服务SFS 购买容器镜像服务SWR 创建网络购买ModelArts专属资源池购买弹性云服务器

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练
训练启动脚本说明和参数配置 - AI开发平台ModelArts

RUN_TYPE pretrain 表示训练类型。可选择值：[pretrain, sft, lora]。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明
在Workflow中更新已部署的服务 - AI开发平台ModelArts

编写工作流基于编写工作流代码示例的场景案例进行改造，代码编写示例如下： from modelarts import workflow as wf # 定义统一存储对象管理输出目录 output_storage = wf.data.OutputStorage(name="output_storage

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
下载代码目录失败 - AI开发平台ModelArts

使用当前账户登录OBS管理控制台，去查找对应的OBS桶、文件夹、文件是否存在。通过接口判断路径是否存在。在代码中执行如下命令，检查路径是否存在。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
如何获取访问密钥？ - AI开发平台ModelArts

获取访问密钥登录华为云，在页面右上方单击“控制台”，进入华为云管理控制台。图1 控制台入口在控制台右上角的账户名下方，单击“我的凭证”，进入“我的凭证”页面。图2 我的凭证在“我的凭证”页面，选择“访问密钥>新增访问密钥”，如图3所示。

帮助中心 > AI开发平台ModelArts > 常见问题 > 权限相关
示例：从 0 到 1 制作自定义镜像并用于训练（PyTorch+CPU/GPU） - AI开发平台ModelArts

您可以准备相同规格的弹性云服务器ECS或者应用本地已有的主机进行自定义镜像的制作。购买ECS服务器的具体操作请参考购买并登录Linux弹性云服务器。“CPU架构”选择“x86计算”，“镜像”选择“公共镜像”，推荐使用Ubuntu18.04的镜像。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
使用Workflow实现低代码AI开发 - AI开发平台ModelArts

使用Workflow实现低代码AI开发什么是Workflow 运行第一条Workflow 管理Workflow 开发第一条Workflow 开发Workflow命令参考

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard）
执行训练任务【旧】 - AI开发平台ModelArts

选择用户自己的专属资源池，以及规格与节点数。防止训练过程中出现内存溢出的情况，用户可参考不同模型推荐参数、NPU卡数进行配置。图3 选择资源池规格新增SFS Turbo挂载配置，并选择用户创建的SFS Turbo文件系统。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
安全边界 - AI开发平台ModelArts
安全边界 - AI开发平台ModelArts

部署上线部署服务时，需要注意为服务设置合适计算节点规格，防止服务因资源不足而过载或者资源过大而浪费。尽量避免在容器中监听其他端口，有本地内部需要访问的其他端口，监听在localhost上。避免通过环境变量传递敏感信息，需要通过加密组件进行加密后再通过环境变量配置。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全

总条数： 1530

上一页
1
...
63
64
65
...
77
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

日志提示"write line error" - AI开发平台ModelArts

Eagle投机小模型训练 - AI开发平台ModelArts

DockerFile构建镜像（可选） - AI开发平台ModelArts

训练作业重调度 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

模型训练使用流程 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

批量服务输入/输出obs目录不存在或者权限不足 - AI开发平台ModelArts

训练精度测试 - AI开发平台ModelArts

步骤总览 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

在Workflow中更新已部署的服务 - AI开发平台ModelArts

下载代码目录失败 - AI开发平台ModelArts

如何获取访问密钥？ - AI开发平台ModelArts

示例：从 0 到 1 制作自定义镜像并用于训练（PyTorch+CPU/GPU） - AI开发平台ModelArts

使用Workflow实现低代码AI开发 - AI开发平台ModelArts

执行训练任务【旧】 - AI开发平台ModelArts

安全边界 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线