检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
单节点采集的日志,即单worker目录下,总文件大小应限制在5G以下,文件总数量不能超过一百万,否则将影响日志清洗效率。 用户训练打屏日志无大小限制,会默认只读最后100KB日志。 CANN日志单个文件应限制在20MB以下。 NPU状态监测指标文件、NPU网口统计监测指标文件、主机侧资源信息文件应限制在512MB以下。
梯度监控工具,可以实现对训练过程模型每一层梯度信息进行监控,目前支持两种能力: 将模型权重的梯度数据导出。这种功能可以将模型权重的梯度值以统计量的形式采集出来,用以分析问题,例如检测确定性问题,使用训练状态监控工具监控NPU训练过程中的确定性计算问题。 将两份梯度数据进行相似度对
除图片类型之外的数据集(如视频、文本、音频等),单个样本大小限制:5GB。 针对图片类数据集(物体检测、图像分类、图像分割),单个图片大小限制:25MB。 单个manifest文件大小限制:5GB。 文本文件单行大小限制:100KB。 数据集标注结果文件大小限制:100MB。 前提条件 数据集功能
这些可用区通过延迟低、吞吐量高且冗余性高的网络连接在一起。利用可用区,您可以设计和操作在可用区之间无中断地自动实现故障转移的应用程序和数据库。与传统的单个或多个数据中心基础设施相比,可用区具有更高的可用性、容错性和可扩展性。 ModelArts通过对DB的数据进行备份,保证在原数据被破坏或损坏的情况下可以恢复业务。
Boolean 是否返回标签统计信息。可选值如下: true:返回标签统计信息 false:不返回标签统计信息(默认值) sample_stats 否 Boolean 是否返回样本统计信息。可选值如下: true:返回样本统计信息 false:不返回样本统计信息(默认值) workforce_stats
DataSource objects 数据来源列表。 data_statistics Map<String,Object> 数据集的样本统计信息,包括样本元信息的统计。 data_update_time Long 样本和标签的更新时间。 dataset_format Integer 数据集格式。可选值如下:
取单步计算、下发和通信耗时。 slow rank 对于集群profiling进行性能统计,获取每张卡不同step的计算、下发和通信耗时。 slow link 对于集群profiling进行性能统计,获取每张卡不同step的带宽信息。 environment variable 识别
DataSource objects 数据来源列表。 data_statistics Map<String,Object> 数据集的样本统计信息,包括样本元信息的统计,json格式。 data_update_time Long 样本和标签的更新时间。 data_url String 训练所用的数据路径。
昇腾资源为单卡时,cache目录保持500G大小限制;除单卡外,cache盘大小与卡数有关,计算方式为卡数*500G,上限为3T。详细表1所示。 表1 不同Notebook规格资源“/cache”目录的大小 规格类别 cache盘大小 GPU-0.25卡 500G*0.25 GPU-0
ModelArts训练中不同规格资源“/cache”目录的大小是多少? 在创建训练作业时可以根据训练作业的大小选择资源。 ModelArts会挂载硬盘至“/cache”目录,用户可以使用此目录来储存临时文件。“/cache”与代码目录共用资源,不同资源规格有不同的容量。 k8s磁
参数类型 描述 checking_stats CheckTaskStats object 实时验收统计信息。 total_stats CheckTaskStats object 历史汇总后的统计信息。 表4 CheckTaskStats 参数 参数类型 描述 accepted_sample_count
在ModelArts数据集中添加图片对图片大小有限制吗? 在数据管理功能中,针对“物体检测”或“图像分类”的数据集,在数据集中上传更多的图片时,是有限制的。要求单张图片大小不超过8MB,且只支持JPG、JPEG、PNG和BMP四种格式的图片。 请注意,针对自动学习功能中的添加图片,其图片大小限制不同,要求上传的图片大小不超过5MB。
调用查询样本列表接口根据数据集ID获取数据集的样本详情。 调用批量更新样本标签接口根据数据集ID和样本ID给样本添加标签进行人工标注。 调用查询数据集的统计信息接口查看数据集的标注统计信息。 当数据集使用完成或不再使用时,调用删除数据集接口删除数据集。 前提条件 已获取IAM的EndPoint和ModelArts的EndPoint。
} 这里Step指定为0表示只对首个Step进行数据Dump。task指定为statistics表示使用统计量模式,该模式下针对整网训练API输入输出保存最大值、最小值、均值等统计量信息比对,落盘数据量较小。GPU和NPU环境依次进行数据Dump,正常执行结束标识如下图回显Exception:
AI开发的目的是什么 AI开发的目的是将隐藏在一大批数据背后的信息集中处理并进行提炼,从而总结得到研究对象的内在规律。 对数据进行分析,一般通过使用适当的统计、机器学习、深度学习等方法,对收集的大量数据进行计算、分析、汇总和整理,以求最大化地开发数据价值,发挥数据作用。 AI开发的基本流程 AI
file_num_total Long 总文件数。 file_size_finished Long 传输完成文件大小(字节)。 file_size_total Long 总文件大小(字节)。 请求示例 查询导入任务详情 GET https://{endpoint}/v2/{projec
file_num_total Long 总文件数。 file_size_finished Long 传输完成文件大小(字节)。 file_size_total Long 总文件大小(字节)。 请求示例 获取数据集导入任务列表 GET https://{endpoint}/v2/{pro
“历史更新记录”:展示历史模型相关信息。 监控信息 展示当前服务的“资源统计信息”和“模型调用次数统计”。 “资源统计信息”:包括CPU、内存、GPU、NPU的可用和已用信息。 “模型调用次数统计”:当前模型的调用次数,从模型状态为“已就绪”后开始统计。(websocket服务不显示) 事件 展示当前
并输入步骤1中复制的Notebook的ID,单击图标即可搜索该资源的账单。 图1 查询资源账单 这里设置的统计维度为“按使用量”,统计周期为“按账期”,您也可以设置其他统计维度和周期,详细介绍请参见流水与明细账单。 查看训练作业的账单 ModelArts训练作业查询资源账单首先需
更新网络资源 查询资源实时利用率 创建资源池 查询资源池列表 查询资源池 删除资源池 更新资源池 资源池监控 资源池统计 查询资源规格列表 查询专属资源池作业列表 查询专属资源池作业统计信息