检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
requirements are installed’ 原因分析 出现该问题的可能原因如下: 用户/训练系统,将CUDA_VISIBLE_DEVICES传错了,检查CUDA_VISIBLE_DEVICES变量是否正常。 用户选择了1/2/4卡这些规格的作业,然后设置了CUDA_VISIBLE_DEV
ensorFlow、PyTorch等之上,使用MoXing API可让模型代码的编写更加简单、高效。 MoXing提供了一套文件对象API,可以用来读写OBS文件。 您可以通过MoXing API文档了解其与原生API对应关系,以及详细的接口调用示例,详细说明请参见MoXing文件操作。
数据集图片无法显示,如何解决? 问题现象 创建的数据集,在进行标注时无法显示图片,单击单张图片也无法查看。或者数据集中提示图片加载异常。 原因分析 可能由于用户本地网络原因,无法正常访问OBS导致图片无法正常加载。 可能由于没有OBS桶的访问权限导致,请检查数据集输入位置所在的OBS桶,是否具有访问权限。
putShapes可将模型放入到netron官网中查看。 图1 benchmark对接结果输出示例图 为了简化用户使用,ModelArts提供了Tailor工具便于用户进行Benchmark精度测试,具体使用方式参考Tailor指导文档。 父主题: GPU推理业务迁移至昇腾的通用指导
使用Notebook进行代码调试 背景信息 Notebook使用涉及到计费,具体收费项如下: 处于“运行中”状态的Notebook,会消耗资源,产生费用。根据您选择的资源不同,收费标准不同,价格详情请参见产品价格详情。当您不需要使用Notebook时,建议停止Notebook,避免产生不必要的费用。
自动学习的每个项目对数据有哪些要求? 图像分类对数据集的要求 文件名规范:不能有+、空格、制表符。 保证图片质量:不能有损坏的图片,目前支持的格式包括jpg、jpeg、bmp、png。 不要把明显不同的多个任务数据放在同一个数据集内。 每一类数据尽量多,尽量均衡。期望获得良好效果
IMEOUT,因此会导致通信速度慢且不稳定,最后造成IB通信断连,偶发上述现象。 原因2:NCCL_SOCKET_IFNAME设置错误。当用户的NCCL版本低于2.14时,则需要手动设置NCCL_SOCKET_IFNAME环境变量。 处理方法 针对原因1,需要在代码中补充如下环境变量。
需要您把CV2包制作为自定义镜像,上传至容器镜像服务(SWR),选择从容器镜像中导入元模型,部署在线服务。如何制作自定义镜像请参考从0-1制作自定义镜像并创建AI应用。 父主题: 服务部署
ion的domain级别的token。具体指导参见连接:获取IAM用户Token。 APP认证的方式:APP认证方式又可以细分为AppCode认证和APP签名认证。 AppCode认证需要在header的X-Apig-AppCode字段上填入绑定给该在线服务的APP的AppCode。
中,单击AI应用名称,进入AI应用详情页。 在“基本信息”中,复制AI应用的ID。 图3 获取AI应用ID 根据查询到的资源名称拼接账单中上报的资源名称。 拼接规则:在线服务名称-AI应用的ID 假设在线服务名称为service_predictor_name,AI应用的ID为b9
如果代码中涉及文件绝对路径,由于Notebook调试与训练作业环境不同,可能会导致文件绝对路径不一致,需要修改代码内容。推荐使用软链接的方式解决该问题,用户只需提前建立好软链接,代码中的地址可保持不变。 新建软链接: # ln -s 源目录/文件 目标目录/文件 # 例如 ln -s /mnt
不正确等,请按以下步骤排查。 解决方案 排查/home/ma-user权限,建议将该目录权限设置为755或750,权限不能过于宽松,以保证用户隔离和安全。修改方法如下。 chomd 755 /home/ma-user chomd 750 /home/ma-user 排查密钥是否是和实例绑定的一致。
具备UTF-8处理能力。 Manifest文件中文本分类的source数值可以包含中文,其他字段不建议用中文。 Manifest文件可以由用户、第三方工具或ModelArts标注系统生成。 Manifest文件名没有特殊要求,可以为任意合法文件名。 父主题: Manifest管理
计费示例 以下案例中出现的费用价格仅供参考,实际价格请参见各服务价格详情。 示例:使用公共资源池。计费项:计算资源费用 + EVS存储费用 假设用户于2023年4月1日10:00:00创建了一个Notebook实例,使用规格为CPU: 8 核 32GB、计算节点个数为1个的公共资源池和磁盘规格为5GB的运行盘(总计单价:3
在ModelArts的专属资源池中添加标签。 可以在创建弹性集群的时候添加标签,也可以在已经创建完成的资源池详情页面的“标签”页签中添加标签。 图1 添加标签 用户也可以在ModelArts任务中添加标签时,创建新的标签,直接输入标签键和标签值即可。此处创建的标签仅当前的项目Project可见。不同的项目中查看不到。
号授予桶的读写权限指导,授予当前账号OBS桶的读写权限。此操作指导是某一华为云账号将其OBS桶权限授予其他华为云账号。如果您的账号是IAM用户或其他场景时,请参见《OBS权限配置指南 》> 典型场景配置案例,查找授予OBS桶权限的指导。 获得OBS桶的读写权限后,您可以在Note
备注 /xxx 否 专属池使用SFS盘挂载的目录,路径由客户自己指定。 /home/ma-user/modelarts 否 空文件夹,建议用户主要用这个目录。 /cache 否 裸机规格支持,挂载宿主机NVMe的硬盘。 /dev/shm 否 用于PyTorch引擎加速。 /usr/local/nvidia
模型准备,导出和保存确定格式的模型。 转换参数准备,准备模型业务相关的关键参数。 模型转换,包含模型转换、优化和量化等。 应用集成。 针对转换的模型运行时应用层适配。 数据预处理。 模型编排。 模型裁剪。 精度校验。 精度对比误差统计工具。 自动化精度对比工具。 网络结构可视化工具。
CCE_错误码查看详细的错误信息及处理措施。 其他报错请提工单联系ModelArts运维进一步定位解决。 集群容器网段不足,导致创建失败? 图6 报错信息 用户可根据实际业务场景和节点规模,自定义配置容器网段,配置方式如下: ModelArts Standard池,资源池创建阶段指定容器网段,根据实际需要设置更大的容器网段。
中提供了优势。而FP16则在计算效率和内存使用方面有其独特的优点,但可能在数值范围和稳定性方面略逊一筹。因此,选择哪种格式往往取决于具体的应用场景和训练需求。 父主题: 训练脚本说明