检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
服务的APP的AppCode。 APP签名认证需要在header的X-Sdk-Date和Authorization字段中填入通过sdk或者工具使用该在线服务绑定的APP的AppKey和AppSecret所生产的这两个字段的值,以完成对该请求的签名认证。具体指导参见链接:访问在线服务(APP认证)。
减小,并逐渐趋于稳定平缓。可以使用可视化工具TrainingLogParser查看loss收敛情况。 FAQ 问题:使用TrainingLogParser工具解析训练日志中loss数据,坐标栏空白,未显示数据走势曲线。 解决方法:在解析工具页面右侧,单击日志文件名右边的设置图标,在弹出的窗口中修改Loss
情况。建议优化数据读取和数据增强的性能,例如将数据读取并行化,或者使用NVIDIA Data Loading Library(DALI)等工具提高数据增强的速度。 模型保存不要太频繁:模型保存操作一般会阻塞训练,如果模型较大,并且较频繁地进行保存,就会影响GPU/NPU利用率。同
bucket/XXX.txt”。用户无法直接使用open方法打开OBS文件,上面描述的打开本地文件的代码将会报错。 OBS提供了很多方式和工具给用户使用,如SDK、API、console、OBS Browser等,ModelArts mox.file提供了一套更为方便地访问OBS
释放资源。保存在其中的代码文档将丢失,请注意备份文件以及使用时长。 CodeLab入口 ModelArts管理控制台的“总览”页 在“开发工具”区域下方,展示“CodeLab”简介卡片,单击“立即体验”,即可进入。 图1 CodeLab入口 AI Gallery页面提供的Notebook样例
image get-image查询ModelArts已注册镜像 Dockerfile一般需要提供一个基础镜像的地址,目前支持从docker hub等开源镜像仓拉取公开镜像,以及SWR的公开或私有镜像。其中ma-cli提供了查询ModelArts预置镜像和用户已注册镜像列表及SWR地址。 $ma-cli
mlstudio-pyspark2.3.2-ubuntu16.04 CPU算法开发和训练基础镜像,包含可以图形化机器学习算法开发和调测MLStudio工具,并预置PySpark2.3.2 CPU 否 是 mindspore_1.10.0-cann_6.0.1-py_3.7-euler_2.8
本地IDE使用PyCharm工具,远程连接访问,具体参见通过PyCharm远程使用Notebook实例。 本地IDE使用VS Code工具,远程连接访问,具体参见通过VS Code远程使用Notebook实例。 本地IDE使用SSH工具,远程连接访问,具体参见通过SSH工具远程使用Notebook。
attention算子(性能较优)或者使用小算子。 训练脚本 由算法迁移人员排查迁移后的NPU脚本是否存在问题,可以通过Beyond Compare工具比对GPU训练脚本和NPU训练脚本之间是否存在差异。例如是否GPU环境下开启了FA但是NPU上未开启FA。 三方库版本比对 大模型训练通常
CacheVolumeExceedQuota /cache目录文件大小超过最大限制 紧急 NotebookHealthy 实例从不健康恢复到了健康状态 重要 EVSSoldOut EVS存储售罄 紧急 表6 OBS动态挂载产生的事件列表 事件名称 事件描述 事件级别 DynamicMountStorage
例如TensorFlow、PyTorch等,但是实际开发中,通常还需要安装其他依赖包,此时可以通过Terminal连接到环境里操作。 单击工具栏“Tools >Start SSH session”,选择SSH Configuration中配置的开发环境。可以执行pip install安装所需要的包。
Triton框架迁移操作步骤 本教程基于nvidia官方提供的nvcr.io/nvidia/tritonserver:23.03-py3镜像进行适配,使用开源大模型llama7b进行推理任务。 增加用户ma-user。 Triton镜像中默认已存在id为1000的triton-server用户,
训练过程中,训练日志会在最后的Rank节点打印。 日志里存在lm loss参数 ,lm loss参数随着训练迭代周期持续性减小,并逐渐趋于稳定平缓。可以使用可视化工具TrainingLogParser查看loss收敛情况。 FAQ 如果clip-vit-large-patch14-336模型不能自动下载。
务需要选择任务所需的资源卡数。 如果选择付费资源,则请确认账号未欠费,且余额高于所选计算规格的收费标准,否则可能会导致AI Gallery工具链服务异常中断。AI Gallery的计算规格的计费说明请参见计算规格说明。 作业参数配置完成后,单击“启动作业”。 在“订单信息确认”页
正常运行完成训练,会显示如下内容。 图7 训练完成 精度一般问题不大,step_loss都是一个较小值。 训练过程中,训练日志会在最后的Rank节点打印。可以使用可视化工具TrainingLogParser查看loss收敛情况。 其它注意事项 默认500step保存一个checkpoint,可以通过在启动脚本
olicy 用于更新Notebook实例的自动停止时间。 OBS并行文件系统场景下使用MindInsight/TensorBoard可视化工具。 ModelArts modelarts:notebook:umountStorage modelarts:notebook:getMountedStorage
发布免费算法 在AI Gallery中,您可以将个人开发的算法免费分享给他人使用。 前提条件 在ModelArts的算法管理中已准备好待发布的算法。创建算法的相关操作请参见创建算法。 创建算法时,算法代码存储的OBS桶内不能存在文件和文件夹重名的情况,这样算法可能会发布失败。如果算法发布成功,则代码开放会失败。
发布免费模型 在AI Gallery中,您可以个人开发的模型免费分享给他人使用,包括ModelArts模型和HiLens技能。 前提条件 如果是发布ModelArts模型,已经在ModelArts的“AI应用管理”中准备好待发布的模型。在“AI应用管理”界面创建或发布模型的相关操
对用户分享的新闻链接进行智能分类,帮助用户迅速定位到感兴趣的话题。 内容推荐系统: 根据用户的阅读偏好和历史行为,智能推荐相关新闻,增强用户粘性和满意度。 新闻分析工具: 为分析师提供自动分类的新闻数据,便于进行市场趋势和热点分析。 方案流程 图1 方案实现流程 准备数据集:获取新闻数据集,并上传到OBS。
SDK校验文件 下载Workflow SDK安装包 下载Workflow SDK校验文件 将SDK包及对应的校验文件放在同一目录下,使用openssl工具进行完整性校验,Workflow SDK校验示例如下: openssl cms -verify -binary -in modelarts_workflow-*