检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
扩展的块存储服务,数据持久性高达99.9999999%。 训练故障自动恢复 用户在训练模型过程中,存在因硬件故障而产生的训练失败场景。针对硬件故障场景,ModelArts提供容错检查功能,帮助用户隔离故障节点,优化用户训练体验。 容错检查包括两个检查项:环境预检测与硬件周期性检查
如何定位Workflow运行报错 使用run模式运行工作流报错时,分析解决思路如下: 确认安装的SDK包是否是最新版本,避免出现包版本不一致问题。 检查编写的SDK代码是否符合规范,具体可参考相应的代码示例。 检查运行过程中输入的内容是否正确,格式是否与提示信息中要求的一致。 根
而ModelArts还有一个特殊的地方在于,为了完成AI计算的各种操作,AI平台在任务执行过程中需要访问用户的其他服务,典型的就是训练过程中,需要访问OBS读取用户的训练数据。在这个过程中,就出现了ModelArts“代表”用户去访问其他云服务的情形。从安全角度出发,Model
1:置信度偏低。 2:基于训练数据集的聚类结果和预测结果不一致。 3:预测结果和训练集同类别数据差异较大。 4:连续多张相似图片的预测结果不一致。 5:图像的分辨率与训练数据集的特征分布存在较大偏移。 6:图像的高宽比与训练数据集的特征分布存在较大偏移。 7:图像的亮度与训练数据集的特征分布存在较大偏移。
是什么? 如何查看ModelArts的Notebook使用的cuda版本? 在ModelArts的Notebook中如何获取本机外网IP? ModelArts的Notebook有代理吗?如何关闭? 在ModelArts的Notebook中内置引擎不满足使用需要时,如何自定义引擎IPython
建自定义大模型,才能进行模型训练和推理,才能获得更适合特定领域或任务的大语言模型。 在MaaS中创建模型 3 模型调优 完成数据集的准备后,可以在ModelArts Studio大模型即服务平台开始模型调优。模型调优,即使用训练数据集和验证数据集训练模型。 使用MaaS调优模型 模型压缩
ModelArts团队标注的数据分配机制是什么? 如何将两个ModelArts数据集合并? 在ModelArts中同一个账户,图片展示角度不同是为什么? 在ModelArts中智能标注完成后新加入数据需要重新训练吗? 在ModelArts中如何将图片划分到验证集或者训练集? 在ModelArts中物体检测标注时能否自定义标签?
出现ModelArts.6333错误,如何处理? 问题现象 在使用Notebook过程中,界面出现“ModelArts.6333”报错信息。 原因分析 可能由于实例过负载引起故障,Notebook正在自动恢复中,请刷新页面并等待几分钟。常见原因是内存占用满。 处理方法 当出现此错
子账号在创建ModelArts的专属资源池过程中,如果需要开启自定义网络配置,需要配置VPC权限。 VPC FullAccess 可选 SFS弹性文件服务 授予子账号使用SFS服务的权限,ModelArts的专属资源池中可以挂载SFS系统作为开发环境或训练的存储。 SFS Turbo FullAccess
Code扩展中搜索“ModelArts-HuaweiCloud”并单击“安装”。 图1 安装VS Code插件 安装过程预计1~2分钟,如图2所示,请耐心等待。 图2 安装过程 安装完成后,系统右下角提示安装完成,导航左侧出现ModelArts图标和SSH远程连接图标,表示VS Code插件安装完成。
GPU裸金属服务器无法Ping通如何解决 问题现象 在华为云使用GPU裸金属服务器时, 服务器绑定EIP(华为云弹性IP服务)后,出现无法ping通弹性公网IP现象。 原因分析 查看当前GPU裸金属服务器的安全组的入方向规则的配置,发现仅开通了TCP协议的22端口。 ping命令
开发环境中的Notebook支持。训练作业和模型部署(即推理)暂时不支持。 Keras是一个用Python编写的高级神经网络API,它能够以TensorFlow、CNTK或者Theano作为后端运行。Notebook开发环境支持“tf.keras”。 如何查看Keras版本 在Mode
ModelArts部署在线服务时,如何避免自定义预测脚本python依赖包出现冲突? 导入模型时,需同时将对应的推理代码及配置文件放置在模型文件夹下。使用Python编码过程中,推荐采用相对导入方式(Python import)导入自定义包。 如果ModelArts推理框架代码内
rts的访问授权时,则需要先完成配置才能正常使用MaaS服务。 ModelArts在任务执行过程中需要访问用户的其他服务,典型的就是训练过程中,需要访问OBS读取用户的训练数据。在这个过程中,就出现了ModelArts“代表”用户去访问其他云服务的情形。从安全角度出发,Model
文档导读 本文档指导您如何安装和配置开发环境、如何通过调用ModelArts SDK提供的接口函数进行二次开发。 章节 内容 SDK简介 简要介绍ModelArts SDK的概念。 快速开始 介绍如何使用ModelArts SDK进行二次开发。 (可选)本地服务器安装ModelArts
Pod删除后,存储不会清理。 使用主机路径 OBS 适用于训练数据集的存储。 对象存储。常用OBS SDK进行样本数据下载。存储量大,但是离节点比较远,直接训练速度会比较慢,通常会先将数据拉取到本地cache,然后再进行训练任务。 静态挂载 动态挂载 SFS Turbo 适用于海量小文件业务场景。
通知权限。 (可选)配置VPC权限。如果用户在创建专属资源池过程中,需要开启自定义网络配置,此处需要授予用户VPC权限。 (可选)配置SFS和SFS Turbo权限。如果用户在专属资源池中挂载SFS系统作为开发环境或训练的存储时,需要授予使用权限。 单击左上角的“查看已选”,确认已勾选的权限。
使用MoXing复制数据报错 如何关闭Mox的warmup Pytorch Mox日志反复输出 moxing.tensorflow是否包含整个TensorFlow,如何对生成的checkpoint进行本地Fine Tune? 训练作业使用MoXing复制数据较慢,重复打印日志 MoXing如何访问文件
object_type="directory") # 通过JobStep来定义一个训练节点,并将训练结果输出到OBS job_step = wf.steps.JobStep( name="training_job", # 训练节点的名称,命名规范(只能包含英文字母、数字、下划线(_)、中划
5327423 原因分析 当使用MoXing复制数据不成功,可能原因如下: 源文件不存在。 OBS路径不正确或者是两个OBS路径不在同一个区域。 训练作业空间不足。 处理方法 按照报错提示,需要排查以下几个问题: 检查moxing.file.copy_parallel()的第一个参数中是否有文件,否则会出现报错:No