检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
法 第三方pip源中的python包版本更新,导致在训练作业中安装的python包的版本可能也会发生变化。如训练作业之前无此问题,后面一直有此问题,则考虑是此原因。 处理方法 通过Notebook调试。 安装时指定版本。如:pip install xxx==1.x.x 第三方pi
发布需求 如果你已经注册成为了AI Gallery平台上的合作伙伴,你可以在AI Gallery上发布你的需求。 在“AI Gallery”页面中,单击右上角“我的Gallery > 我的主页”进入个人中心页面。 左侧菜单栏选择“我的需求”进入我的需求列表页,单击右上方的“发布”,进入发布需求页面。
推理服务测试 推理服务在线测试支持文件、图片、json三种格式。通过部署为在线服务Predictor可以完成在线推理预测。 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 场景:部署在线服务Predictor的推理预测
Docker的安装可以参考官方文档:Install Docker Engine on Ubuntu。MiniConda与tflite安装包为第三方安装包,ModelArts不对其安全相关问题进行负责,如用户有安全方面的需求,可以对该安装包进行加固后发布成同样名称的文件上传到构建节点。
示例:创建DDP分布式训练(PyTorch+GPU) 本文介绍三种使用训练作业来启动PyTorch DDP训练的方法及对应代码示例。 使用PyTorch预置框架功能,通过mp.spawn命令启动 使用自定义镜像功能 通过torch.distributed.launch命令启动 通过torch
在Dify中配置支持Function Calling的模型使用 Dify是一个能力丰富的开源AI应用开发平台,为大型语言模型(LLM)应用的开发而设计。它巧妙地结合了后端即服务(Backend as Service)和LLMOps的理念,提供了一套易用的界面和API,加速了开发者构建可扩展的生成式AI应用的过程。
endpoints Array of EndpointsRes objects 本地IDE(如PyCharm、VS Code)或SSH客户端,通过SSH远程接入Notebook实例时需要的相关配置。 fail_reason String 实例失败原因。 flavor String 实例规格。 id
endpoints Array of EndpointsRes objects 本地IDE(如PyCharm、VS Code)或SSH客户端,通过SSH远程接入Notebook实例时需要的相关配置。 fail_reason String 实例失败原因。 flavor String 实例规格。 id
Cluster监控指标 Prometheus是一款开源监控工具,ModelArts支持Exporter功能,方便用户使用Prometheus等第三方监控系统获取ModelArts采集到的指标数据。 本章节主要介绍如何通过Prometheus查看Lite Cluster监控指标。 约束限制
在ModelArts的Notebook中使用VS Code调试代码无法进入源码怎么办? 如果已有launch.json文件,请直接看步骤三。 步骤一:打开launch.json文件 方法一:单击左侧菜单栏的Run(Ctrl+Shift+D)按钮,再单击create a launch
JupyterLab中文件保存失败,如何解决? 问题现象 JupyterLab中保存文件时报错如下: 原因分析 浏览器安装了第三方插件proxy进行了拦截,导致无法进行保存。 在Notebook中的运行文件超过指定大小就会提示此报错。 jupyter页面打开时间太长。 网络环境原因,是否有连接网络代理。
到。 在安装容器引擎的机器中执行上一步复制的登录指令。登录成功会显示“Login Succeeded”。 拉取基础镜像或第三方镜像(此处以基础镜像举例,第三方镜像直接替换镜像地址)。 拉取ModelArts提供的公共镜像(请参考预置镜像)。 docker pull swr.cn-north-4
监控资源 用户可以通过资源占用情况窗口查看计算节点的资源使用情况,最多可显示最近三天的数据。在资源占用情况窗口打开时,会定期向后台获取最新的资源使用率数据并刷新。 操作一:如果训练作业使用多个计算节点,可以通过实例名称的下拉框切换节点。 操作二:单击图例“cpuUsage”、“g
进入AI Gallery首页,单击“实践”,在下拉框中单击“实践 >”,进入实践首页。 在实践页面,有“进行中”、“即将开始”和“已结束”三种状态的实践活动筛选方式。 图1 查找实践活动 单击右上方的“我的实践”可以跳转到个人中心(“我的Gallery > 我的实践”),查看个人已参加的实践活动列表。
Standard提供了训练作业失败定位与分析功能,如果训练作业运行失败,ModelArts会自动识别导致作业失败的原因,在训练日志界面上给出提示。提示包括三部分:失败的可能原因、推荐的解决方案以及对应的日志(底色标红部分)。 图1 训练故障识别 ModelArts Standard会对部分常见训
部署服务 功能介绍 将模型部署为服务。 公共池中挂载密钥,支持HCS第三方用户使用secret_volumes字段来进行密钥挂载,且不提供UI界面,只能通过内部接口进行调用。 支持在modelarts边缘服务通过service_secrets来挂载密钥管理当中的密钥。 调试 您可以在API
Compare工具比对GPU训练脚本和NPU训练脚本之间是否存在差异。例如是否GPU环境下开启了FA但是NPU上未开启FA。 三方库版本比对 大模型训练通常会使用Deepspeed、Megatron等三方库,需要确保这些三方库的版本一致。 环境版本更新 这一项仅在条件允许的情况下进行,根据精度问题定位经验,部分问
更新服务配置 功能介绍 更新模型服务配置。也可以使用此接口启停服务。 公共池中挂载密钥,支持HCS第三方用户使用secret_volumes字段来进行密钥修改,且不提供UI界面,只能通过内部接口进行调用。 支持在modelarts边缘服务通过service_secrets来修改挂载密钥管理当中的密钥。
elArts提供的基础镜像或用户第三方镜像来编写Dockerfile,构建出完全适合自己的镜像。 Notebook自定义镜像制作流程 图1 Notebook自定义镜像制作流程图(适用于场景一和场景二) 场景一:基于Notebook预置镜像或第三方镜像,在服务器上配置docker环
在ModelArts训练时如何安装C++的依赖库? 在训练作业的过程中,会使用到第三方库。以C++为例,请参考如下操作步骤进行安装: 将源码下载至本地并上传到OBS。使用OBS客户端上传文件的操作请参见上传文件。 将上传到OBS的源码使用Moxing复制到开发环境Notebook中。