搜索_华为云

端到端运维ModelArts Standard推理服务方案 - AI开发平台ModelArts

得ModelArts推理在线服务的监控数据，最后可配置告警规则实现实时告警通知。业务运行阶段，先将业务系统对接在线服务请求，然后进行业务逻辑处理和监控设置。图1 推理服务的端到端运维流程图整个运维过程会对服务请求失败和资源占用过高的场景进行监控，当超过阈值时发送告警通知。图2

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
配置Lite Server存储 - AI开发平台ModelArts

可以为云服务器提供高可靠、高性能、规格丰富并且可弹性扩展的块存储服务，可满足不同场景的业务需求。云硬盘就类似PC中的硬盘。存储数据的逻辑存放的是文件，会以文件和文件夹的层次结构来整理和呈现数据。存放的是对象，可以直接存放文件，文件会自动产生对应的系统元数据，用户也可以自定义文件的元数据。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
训练的数据集预处理说明 - AI开发平台ModelArts

ler.py。基类BaseDatasetHandler解析 data_handler的基类是BaseDatasetHandler，其核心函数是serialize_to_disk： def serialize_to_disk(self): """save idx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 训练脚本说明参考
训练的数据集预处理说明 - AI开发平台ModelArts

ler.py。基类BaseDatasetHandler解析 data_handler的基类是BaseDatasetHandler，其核心函数是serialize_to_disk： def serialize_to_disk(self): """save idx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909） > 训练脚本说明
附录：Standard大模型推理常见问题 - AI开发平台ModelArts

s/models/llama/modeling_llama.py，在class LlamaRotaryEmbedding中的forward函数中增加self.inv_freq = self.inv_freq.npu() 问题7：使用Qwen2-7B、Qwen2-72B模型有精度问题，重复输出感叹号

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
附录：Standard大模型推理常见问题 - AI开发平台ModelArts

s/models/llama/modeling_llama.py，在class LlamaRotaryEmbedding中的forward函数中增加self.inv_freq = self.inv_freq.npu() 问题7：使用Qwen2-7B、Qwen2-72B模型有精度问题，重复输出感叹号

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
训练的数据集预处理说明 - AI开发平台ModelArts

ler.py。基类BaseDatasetHandler解析 data_handler的基类是BaseDatasetHandler，其核心函数是serialize_to_disk： def serialize_to_disk(self): """save idx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明参考
附录：大模型推理常见问题 - AI开发平台ModelArts

s/models/llama/modeling_llama.py，在class LlamaRotaryEmbedding中的forward函数中增加self.inv_freq = self.inv_freq.npu() 问题7：使用Qwen2-7B、Qwen2-72B模型有精度问题，重复输出感叹号

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909）
训练作业容错检查 - AI开发平台ModelArts

检测项目与执行条件触发容错环境检测达到的效果环境预检查通过后，如果发生硬件故障会导致用户业务中断。您可以在训练中补充reload ckpt的代码逻辑，使能读取训练中断前保存的预训练模型。指导请参考设置断点续训练。开启容错检查用户可以在创建训练作业时通过设置自动重启的方式开启容错检查。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
创建ModelArts数据增强任务 - AI开发平台ModelArts

LightContrast 亮度对比度增强，使用一定的非线性函数改变亮度空间的亮度值。 func：默认值为gamma gamma为常见方法伽马矫正，公式为255*((v/255)**gamma)') sigmoid为函数为S型曲线，公式为255*1/(1+exp(gain*(cutoff-I_ij/255)))')

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

NVIDIA的驱动程序是一个二进制文件，需使用系统中的libelf库(在elfutils-libelf-devel开发包)中。它提供了一组C函数，用于读取、修改和创建ELF文件，而NVIDIA驱动程序需要使用这些函数来解析当前正在运行的内核和其他相关信息。安装过程中的提示均选OK或YES，安装好后执行reboot重

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
构建条件节点控制分支执行 - AI开发平台ModelArts

字符)，一个Workflow里的两个step名称不能重复是 str conditions 条件列表，列表中的多个Condition执行“逻辑与”操作是 Condition或者Condition的列表 if_then_steps 条件表达式计算结果为True时，执行的step列表

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
Standard模型训练 - AI开发平台ModelArts

Standard模型训练 ModelArts Standard模型训练提供容器化服务和计算资源管理能力，负责建立和管理机器学习训练工作负载所需的基础设施，减轻用户的负担，为用户提供灵活、稳定、易用和极致性能的深度学习训练环境。通过ModelArts Standard模型训练，用户可以专注于开发、训练和微调模型。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
Open-Clip基于DevServer适配PyTorch NPU训练指导 - AI开发平台ModelArts

致。修改/home/ma-user/open_clip/src/training/data.py文件，搜索get_wds_dataset函数，将两处shuffle关闭，修改代码如下。 if is_train: if not resampled:

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
MaaS大模型即服务平台功能介绍 - AI开发平台ModelArts

制，使得模型优化过程不再依赖于手动尝试，显著缩短了从模型开发到部署的周期，确保了模型在各类应用场景下的高性能表现，让客户能够更加聚焦于业务逻辑与创新应用的设计。资源易获取，按需收费，按需扩缩，支撑故障快恢与断点续训企业在具体使用大模型接入企业应用系统的时候，不仅要考虑模型体验

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
升级Standard专属资源池驱动 - AI开发平台ModelArts

升级，可能会导致运行中作业失败，需谨慎选择。约束限制专属资源池状态处于运行中，且专属池中的节点需要含有GPU/Ascend资源。对于逻辑资源池，需要开启节点绑定后才能进行驱动升级，请提交工单联系华为工程师开启节点绑定。驱动升级操作登录ModelArts管理控制台，在左侧导航栏中选择“AI专属资源池

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
常见的磁盘空间不足的问题和解决办法 - AI开发平台ModelArts

载数据盘进行扩容。将数据和checkpoint保存在/cache目录或者/home/ma-user/目录。检查checkpoint相关逻辑，保证历史checkpoint不会不断积压，导致/cache目录用完。如文件大小小于/cache目录大小并且文件数量超过50w，则考虑为

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
安装Gallery CLI配置工具 - AI开发平台ModelArts

sdk_encrypt_implementation_func 自定义加密函数，认证用的AK和SK硬编码到代码中或者明文存储都有很大的安全风险，建议在配置文件中密文存放，使用时解密，确保安全。 sdk_decrypt_implementation_func 自定义解密函数，认证用的AK和SK硬编码到代码中或者明文

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > Gallery CLI配置工具指南
多模态模型推理性能测试 - AI开发平台ModelArts

├── generate_dataset.py # 生成自定义数据集的脚本 ├── benchmark_utils.py # 工具函数集 ├── benchmark.py # 执行静态、动态性能评测脚本 ├── requirements.txt

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 推理性能测试
管理训练容器环境变量 - AI开发平台ModelArts

VC_TASK_INDEX 当前容器索引，容器从0开始编号。单机训练的时候，该字段无意义。在多机作业中，用户可以根据这个值来确定当前容器运行的算法逻辑。 “VC_TASK_INDEX=0” VC_WORKER_NUM 训练作业使用的节点数量。 “VC_WORKER_NUM=4” VC_WORKER_HOSTS

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业

总条数： 569

上一页
1
2
3
4
5
...
29
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

端到端运维ModelArts Standard推理服务方案 - AI开发平台ModelArts

配置Lite Server存储 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

附录：Standard大模型推理常见问题 - AI开发平台ModelArts

附录：Standard大模型推理常见问题 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

创建ModelArts数据增强任务 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

构建条件节点控制分支执行 - AI开发平台ModelArts

Standard模型训练 - AI开发平台ModelArts

Open-Clip基于DevServer适配PyTorch NPU训练指导 - AI开发平台ModelArts

MaaS大模型即服务平台功能介绍 - AI开发平台ModelArts

升级Standard专属资源池驱动 - AI开发平台ModelArts

常见的磁盘空间不足的问题和解决办法 - AI开发平台ModelArts

安装Gallery CLI配置工具 - AI开发平台ModelArts

多模态模型推理性能测试 - AI开发平台ModelArts

管理训练容器环境变量 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线