检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在Notebook中使用自定义镜像常见问题 不在同一个主账号下,如何使用他人的自定义镜像创建Notebook? 父主题: Standard Notebook
F1值是模型精确率和召回率的加权调和平均,用于评价模型的好坏,当F1较高时说明模型效果较好。 同一个自动学习项目可以训练多次,每次训练会注册一个新的模型版本。如第一次训练版本号为“0.0.1”,下一个版本为“0.0.2”。基于训练版本可以对训练模型进行管理。当训练的模型达到目标后,再执行模型部署的操作。
由于一般新训练模型准确率都会从很低的值开始慢慢上升,但是Fine Tune能够在比较少的迭代次数之后得到一个比较好的效果。Fine Tune的好处在于不用完全重新训练模型,从而提高效率,在数据量不是很大的情况下,Fine Tune会是一个比较好的选择。 moxing.tensorflow包含所有的接口,对Ten
Standard会对部分常见训练错误给出分析建议,目前还不能识别所有错误,提供的失败可能原因仅供参考。针对分布式作业,只会显示当前节点的一个分析结果,作业的失败需要综合各个节点的失败原因做一个综合判断。 常见训练问题定位思路如下: 根据日志界面提示中提供的分析建议解决。 参考案例解决:会提供当前故障对应
{util.memory:3.1%} |") 执行nvidia_smi + wapper + prettytable命令。 用户可以将GPU信息显示操作看作一个装饰器,在模型训练过程中就可以实时的显示GPU状态信息。 def gputil_decorator(func): def
从容器镜像中导入模型文件创建模型 针对ModelArts目前不支持的AI引擎,您可以通过自定义镜像的方式将编写的模型导入ModelArts。 约束与限制 关于自定义镜像规范和说明,请参见模型镜像规范。 使用容器化部署,导入的元模型有大小限制,详情请参见导入模型对于镜像大小限制。 前提条件
错误。 原因分析 出现该问题的可能原因如下: 程序运行过程中,产生了core文件,core文件占满了"/"根目录空间。 本地数据、文件保存将"/cache"目录3.5T空间用完了。 云上训练磁盘空间一般指如下两个目录的磁盘空间: “/”根目录,是docker中配置项“base s
空间,以实际取值为准。 feature String 实例类别。枚举值: DEFAULT:CodeLab免费规格实例,每个用户最多只能创建一个。 NOTEBOOK:计费规格实例。 billing_items Array of strings 计费资源类型。枚举值: STORAGE:存储资源计费。
空间,以实际取值为准。 feature String 实例类别。枚举值: DEFAULT:CodeLab免费规格实例,每个用户最多只能创建一个。 NOTEBOOK:计费规格实例。 billing_items Array of strings 计费资源类型。枚举值: STORAGE:存储资源计费。
MBS 1 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中,为了减少气泡时间,会将一个step的数据切分成多个micro batch。 该值与TP和PP以及模型大小相关,可根据实际情况进行调整。 GBS 128 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。
MBS 4 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中,为了减少气泡时间,会将一个step的数据切分成多个micro batch。 该值与TP和PP以及模型大小相关,可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。
购买时需注意,ECS需要和SFS买到同一个VPC才能挂载SFS存储。 购买ModelArts专属资源池 提供独享的计算资源,可用于Notebook、训练作业、部署模型。专属资源池不与其他用户共享,更加高效。在使用专属资源池之前,您需要先创建一个专属资源池,操作指导请参考创建专属资源池。 创建一个专属资源池前
top_p, top_k etc. 在generation_config.json中没有将do_sample的值设置为true,与配置的temperature、top_p、top_k等采样参数矛盾。 将“generation_config.json”文件中的“do_sample”的值设置为“true”。
目前只有“图像分类”和“物体检测”类型的数据集支持智能标注功能。 团队标注 数据标注任务中,一般由一个人完成,但是针对数据集较大时,需要多人协助完成。ModelArts提供了团队标注功能,可以由多人组成一个标注团队,针对同一个数据集进行标注管理。 团队标注功能当前仅支持“图像分类”、“物体检测”、“文
使用MaaS部署模型服务 在ModelArts Studio大模型即服务平台可以将模型部署为服务,便于在“模型体验”或其他业务环境中可以调用。 约束限制 部署模型服务时,ModelArts Studio大模型即服务平台预置了推理的最大输入输出长度。模型Qwen-14B默认是204
MBS 4 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中,为了减少气泡时间,会将一个step的数据切分成多个micro batch。 该值与TP和PP以及模型大小相关,可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。
MBS 1 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中,为了减少气泡时间,会将一个step的数据切分成多个micro batch。 该值与TP和PP以及模型大小相关,可根据实际情况进行调整。 GBS 128 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。
从OBS中导入模型文件创建模型 针对使用常用框架完成模型开发和训练的场景,可以将您的模型导入至ModelArts中,创建为模型,并进行统一管理。 约束与限制 针对创建模型的模型,需符合ModelArts的模型包规范,推理代码和配置文件也需遵循ModelArts的要求,详细说明请参
空间,以实际取值为准。 feature String 实例类别。枚举值: DEFAULT:CodeLab免费规格实例,每个用户最多只能创建一个。 NOTEBOOK:计费规格实例。 billing_items Array of strings 计费资源类型。枚举值: STORAGE:存储资源计费。
器。 是,则修改安全组的配置,具体操作请参见修改安全组规则。 否,则继续下一步。 确认SFS Turbo是否存在异常。 新建一个和SFS Turbo在同一个网段的ECS,用ECS去挂载SFS Turbo,如果挂载失败,则表示SFS Turbo异常。 是,联系SFS服务的技术支持处理。