检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本章节提供eagle小模型自行训练的能力,客户可通过本章节,使用自己的数据训练eagle小模型,并使用自行训练的小模型进行eagle推理。支持llama1系列、llama2系列和Qwen2系列模型。 步骤一:安装Eagle Eagle训练适配代码存放在代码包AscendCloud-LLM-x.x.x.zip的llm_
镜像名称,长度限制512个字符,支持小写字母、数字、中划线、下划线和点。 namespace String 镜像所属组织,可以在SWR控制台“组织管理”创建和查看。 tag String 镜像tag,长度限制64个字符, 支持大小写字母、数字、中划线、下划线和点。 description String
您可以通过保存镜像的方式保留开发环境设置,具体操作请参考保存Notebook实例。 Notebook实例将停止计费,但如有EVS盘挂载,存储部分仍会继续计费。 删除实例 针对不再使用的Notebook实例,可以删除以释放资源。 登录ModelArts管理控制台,在左侧菜单栏中选
相应目录没有生成大小>0的日志文件,则对应的父级目录也不会上传。因此,PyTorch NPU的plog日志是按worker存储的,而不是按rank id存储的(这是区别于MindSpore的)。目前,PyTorch NPU并不依赖rank table file。 #!/bin/bash
“/”根目录,是docker中配置项“base size”,默认是10G,云上统一改为50G。 “/cache”目录满了,一般是3.5T存储空间满了,具体规格的空间大小可参见训练环境中不同规格资源“/cache”目录的大小。 处理方法 如果在训练作业的工作目录下有core文件生
非订阅算法和预置框架无法满足需求,否则不推荐使用。自定义镜像需上传至容器镜像服务(SWR),才能用于ModelArts Standard上训练。 自定义镜像的启动命令规范 用户遵循ModelArts镜像的规范要求制作镜像,选择自己的镜像,并且通过指定代码目录(可选)和启动命令的方式来创建的训练作业。
用户项目ID,获取方法请参见获取项目ID和名称。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 description 否 String 该镜像所对应的描述信息,长度限制512个字符。 name 否 String 镜像名称,长度限制512个字符,支持小写字母、数字、中划线、下划线和点。 namespace
使用PyCharm手动连接Notebook 本地IDE环境支持PyCharm和VS Code。通过简单配置,即可用本地IDE远程连接到ModelArts的Notebook开发环境中,调试和运行代码。 本章节介绍基于PyCharm环境访问Notebook的方式。 前提条件 本地已安装2019
问题现象 训练作业的“状态”为“运行失败”。 原因分析 训练作业的监控内存指标持续升高,导致最后训练作业失败。 处理步骤 查询训练作业的日志和监控信息,是否存在明确的OOM报错信息。 是,训练作业的日志里存在OOM报错,执行2。 否,训练作业的日志里没有OOM报错,但是存在监控指标异常,执行3。
_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 algorithm_id 是 String 算法ID。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 metadata
r1/') 异常处理 通过OBS下载文件到Notebook中时,提示Permission denied。请依次排查: 请确保读取的OBS桶和Notebook处于同一站点区域,例如:都在华北-北京四站点。不支持跨站点访问OBS桶。具体请参见查看OBS桶与ModelArts是否在同一个区域。
能否挖掘出强表达能力的特征,还在于对数据本身以及具体应用场景的深刻理解,这依赖于经验。 调整参数和超参数。 神经网络中:学习率、学习衰减率、隐藏层数、隐藏层的单元数、Adam优化算法中的β1和β2参数、batch_size数值等。 其他算法中:随机森林的树数量,k-means中的cluster数,正则化参数λ等。
方式三:使用Python语言发送预测请求。 方式四:使用Java语言发送预测请求。 约束限制 调用API访问在线服务时,对预测请求体大小和预测时间有限制: 请求体的大小不超过12MB,超过后请求会被拦截。 因APIG(API网关)限制,平台每次请求预测的时间不超过40秒。 前提条件
解压命令的更多使用说明可以在主流搜索引擎中查找Linux解压命令操作。 多个文件同时上传时,JupyterLab窗口最下面会显示上传文件总数和已上传文件数。 上传文件入口 方式一:使用JupyterLab打开一个运行中的Notebook环境。 图1 直接将文件拖拽到JupyterLab窗口左边的空白处上传。
好的对比标杆。如果是NPU上全新开发的网络,请参考PyTorch迁移精度调优排查溢出和精度问题。 理解GPU和NPU的构造以及运行的差别,有助于在迁移过程中分析问题并发挥NPU的优势。由于构造和运行机制的差别,整个迁移过程并非是完全平替,GPU在灵活性上有其独特的优势,而NPU上
nfig 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 请求参数 无 响应参数 状态码: 200 表2 响应Body参数 参数 参数类型 描述 networkCidrs Array of strings
一个或多个。 样本创建时间:1个月内、1天内或自定义,如果选择自定义,可以在时间框中指定明确时间范围。 文件名或目录:根据文件名称或者文件存储目录筛选。 标注人:选择执行标注操作的账号名称。 样本属性:表示自动分组生成的属性。只有启用了自动分组任务后才可使用此筛选条件。 数据属性:暂不支持。
文件单击“点击上传”或拖动文件,单击“确认上传”启动上传。 上传单个超过5GB的文件时,请使用Gallery CLI工具。CLI工具的获取和使用请参见Gallery CLI配置工具指南。 文件合集大小不超过50GB。 文件上传完成前,请不要刷新或关闭上传页面,防止意外终止上传任务,导致数据缺失。
模型训练高可靠性 训练作业容错检查 训练日志失败分析 训练作业卡死检测 训练作业重调度 设置断点续训练 设置无条件自动重启 父主题: 使用ModelArts Standard训练模型
方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。 分类 分类是找出一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等。