检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
推理业务迁移评估表 通用的推理业务及LLM推理可提供下表进行业务迁移评估: 收集项 说明 实际情况(请填写) 项目名称 项目名称,例如:XXX项目。 - 使用场景 例如: 使用YOLOv5算法对工地的视频流裁帧后进行安全帽检测。 使用BertBase算法对用户在app上购买商品后的评论进行理解。
使用Prometheus查看Lite Cluster监控指标 Prometheus是一款开源监控工具,ModelArts支持Exporter功能,方便用户使用Prometheus等第三方监控系统获取ModelArts采集到的指标数据。 本章节主要介绍如何通过Prometheus查看Lite
删除节点池 功能介绍 删除节点池。包周期资源池不支持。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI DELETE /v2/{project_id}/pools/{
推理精度测试 本章节介绍如何进行推理精度测试,请在Notebook的JupyterLab中另起一个Terminal,进行推理精度测试。 Step1 配置精度测试环境 获取精度测试代码。精度测试代码存放在代码包AscendCloud-LLM的llm_tools/llm_evaluation目录中,代码目录结构如下。
推理精度测试 本章节介绍如何进行推理精度测试,数据集是ceval_gen、mmlu_gen。 前提条件 确保容器可以访问公网。 Step1 配置精度测试环境 获取精度测试代码。精度测试代码存放在代码包AscendCloud-LLM的llm_tools/llm_evaluation目录中,代码目录结构如下。
查看训练作业日志 训练日志定义 训练日志用于记录训练作业运行过程和异常信息,为快速定位作业运行中出现的问题提供详细信息。用户代码中的标准输出、标准错误信息会在训练日志中呈现。在ModelArts中训练作业遇到问题时,可首先查看日志,多数场景下的问题可以通过日志报错信息直接定位。
查询数据处理任务的版本列表 功能介绍 查询数据处理任务的版本列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/proc
迁移评估 推理迁移包括模型迁移、业务迁移、精度性能调优等环节,是否能满足最终的迁移效果需要进行系统的评估。如果您仅需要了解迁移过程,可以先按照本文档的指导进行操作并熟悉迁移流程。如果您有实际的项目需要迁移,建议填写下方的推理业务迁移评估表,并将该调研表提供给华为云技术支持人员进行迁移评估,以确保迁移项目能顺利实施。
创建智能标注作业 除了人工标注外,ModelArts还提供了智能标注功能,快速完成数据标注,为您节省70%以上的标注时间。智能标注是指基于当前标注阶段的标签及图片学习训练,选中系统中已有的模型进行智能标注,快速完成剩余图片的标注操作。 数据标注功能仅在以下Region支持:华北-
预训练 前提条件 已上传训练代码、训练权重文件和数据集到SFS Turbo中。 Step1 修改训练超参配置 以llama2-13b预训练为例,执行脚本0_pl_pretrain_13b.sh。 修改模型训练脚本中的超参配置,必须修改的参数如表1所示。其他超参均有默认值,可以参考表1按照实际需求修改。
预训练 前提条件 已上传训练代码、训练权重文件和数据集到SFS Turbo中。 Step1 在Notebook中修改训练超参配置 以llama2-13b预训练为例,执行脚本0_pl_pretrain_13b.sh。 修改模型训练脚本中的超参配置,必须修改的参数如表1所示。其他超参
查询节点池列表 功能介绍 查询节点池列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/pools/{pool_name}/nodepools
预训练任务 Step1 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件和数据集到容器中,可以忽略此步骤。 如果未上传训练权重文件和数据集到容器中,具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。
设置断点续训练 什么是断点续训练 断点续训练是指因为某些原因(例如容错重启、资源抢占、作业卡死等)导致训练作业还未完成就被中断,下一次训练可以在上一次的训练基础上继续进行。这种方式对于需要长时间训练的模型而言比较友好。 断点续训练是通过checkpoint机制实现。 checkp
发布免费算法 在AI Gallery中,您可以将个人开发的算法免费分享给他人使用。 前提条件 在ModelArts的算法管理中已准备好待发布的算法。创建算法的相关操作请参见创建算法。 创建算法时,算法代码存储的OBS桶内不能存在文件和文件夹重名的情况,这样算法可能会发布失败。如果算法发布成功,则代码开放会失败。
查询数据集的团队标注任务列表 功能介绍 查询数据集的团队标注任务列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/da
增量模型训练 什么是增量训练 增量训练(Incremental Learning)是机器学习领域中的一种训练方法,它允许人工智能(AI)模型在已经学习了一定知识的基础上,增加新的训练数据到当前训练流程中,扩展当前模型的知识和能力,而不需要从头开始。 增量训练不需要一次性存储所有的
使用ModelArts VSCode插件调试训练ResNet50图像分类模型 应用场景 Notebook等线上开发工具工程化开发体验不如IDE,但是本地开发服务器等资源有限,运行和调试环境大多使用团队公共搭建的CPU或GPU服务器,并且是多人共用,这带来一定的环境搭建和维护成本。
在ModelArts Standard上运行GPU多机多卡训练作业 操作流程 准备工作: 购买服务资源(VPC/SFS/OBS/SWR/ECS) 配置权限 创建专属资源池(打通VPC) ECS服务器挂载SFS Turbo存储 在ECS中设置ModelArts用户可读权限 安装和配置OBS命令行工具
发布免费模型 在AI Gallery中,您可以个人开发的模型免费分享给他人使用,包括ModelArts模型和HiLens技能。 前提条件 如果是发布ModelArts模型,已经在ModelArts的“AI应用管理”中准备好待发布的模型。在“AI应用管理”界面创建或发布模型的相关操