检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导(6.3.909)
一华为云账号将其OBS桶权限授予其他华为云账号。如果您的账号是IAM用户或其他场景时,请参见《OBS权限配置指南 》> 典型场景配置案例,查找授予OBS桶权限的指导。 获得OBS桶的读写权限后,您可以在Notebook中,使用moxing接口,访问对应的OBS桶,并读取数据。举例如下:
部署为在线服务 部署为批量服务 访问服务 服务部署完成后,针对在线服务和边缘服务,您可以访问并使用服务,针对批量服务,您可以查看其预测结果。 访问在线服务 查看批量服务预测结果
新安装的包与镜像中带的CUDA版本不匹配。 处理方法 必现的问题,使用本地Pycharm远程连接Notebook调试安装。 先远程登录到所选的镜像,使用“nvcc -V”查看目前镜像自带的CUDA版本。 重装torch等,需要注意选择与上一步版本相匹配的版本。 建议与总结 在创建训练作业前,推荐您先使用Mode
视化作业流程 Step1 创建开发环境并在线打开 Step2 上传Summary数据 Step3 启动TensorBoard Step4 查看训练看板中的可视化数据 Step1 创建开发环境并在线打开 在ModelArts控制台,进入“开发空间 > Notebook”页面,创建T
添加所有者:在同一窗口中,单击“添加”,在弹出的新窗口中,单击“主体”后面的“选择主体”,弹出“选择用户,计算机,服务账户或组”窗口,单击“高级”,输入用户名, 单击“立即查找”按钮,显示用户搜索结果列表。 选择您的用户账户,然后单击“确定”(大约四个窗口)以关闭所有窗口。 图1 添加所有者 完成所有操作后,再次关闭并打开VS
针对启用团队标注功能的数据标注任务,支持创建团队标注任务,将标注任务指派给不同的团队,由多人完成标注任务。同时,在成员进行数据标注过程中,支持发起验收、继续验收以及查看验收报告等功能。 团队标注功能是以团队为单位进行管理,数据集启用团队标注功能时,必须指定一个团队。一个团队可以添加多个成员。 一个账号最多可添加10个团队。
选择模型服务,单击操作列的“更多 > 设置QPS”,在弹窗中修改数值,单击“提交”启动修改任务。 图1 修改QPS 在我的服务列表,单击服务名称,进入服务详情页,可以查看修改后的QPS是否生效。 父主题: 管理我的服务
在对专属资源池有一定了解后,如果您需要创建一个自己的专属资源池,您可参考创建Standard专属资源池来进行创建。 专属资源池创建成功后,可在查看Standard专属资源池详情中查看专属资源池的详细信息。 如果专属资源池的规格与您的业务不符,可通过扩缩容Standard专属资源池来调整专属资源池的规格。
配的情况。 如果上述方法还出现了错误,可以去notebook里面调试打印CUDA_VISIBLE_DEVICES变量,或者用以下代码测试,查看结果是否返回的是True。 import torch torch.cuda.is_available() 建议与总结 在创建训练作业前,推
若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod,需要先找到config
timestamp.jpg 查看数据集演进过程 登录ModelArts管理控制台,在左侧菜单栏中选择“资产管理>数据集”,进入“数据集”管理页面。 在数据集列表中,单击操作列的“更多 > 版本管理”,进入数据集“版本管理”页面。 您可以查看数据集的基本信息,并在左侧查看版本演进信息及其发布时间。
任务提交成功后,单击“查看服务详情”,等待服务状态变为“运行中”时,表示服务部署成功。预计时长4分钟左右。 图3 服务部署成功 步骤四:预测结果 在线服务部署完成后,单击“预测”页签。 在“预测”页签,单击“上传”,上传一个测试图片,单击“预测”查看预测结果。此处提供一个样例图片供预测使用。
其他参数请根据界面提示填写。 设置完成后,单击“确定”,即进行增量训练。系统将自动跳转至“模型训练”页面,待训练完成后,您可以在此页面中查看训练详情,如“训练精度”、“评估结果”、“训练参数”等。 图1 选择增量训练版本 父主题: Standard自动学习
支持1~90个字符,请勿在描述中输入涉政、迷信、违禁等相关敏感词,否则发布审核无法通过。 可见范围 “所有用户可见”:表示公开资产,所有用户都可以查看该资产。 “指定用户可见”:输入账号名、账号ID或用户昵称搜索并选择用户,使其可见该资产。 可用范围 选择是否启用“申请用户可用”。 勾选
下架镜像 AI Gallery中已上架的资产支持下架操作。 在AI Gallery首页,选择右上角“我的Gallery”。 在“我的资产”下,查看已上架的资产。 单击资产名称,进入资产详情页。 在资产详情页,单击“下架”,在弹窗中单击“确定”。即可将资产下架。 删除镜像 当资产不使用时,支持删除,释放AI
支持1~90个字符,请勿在描述中输入涉政、迷信、违禁等相关敏感词,否则发布审核无法通过。 可见范围 “所有用户可见”:表示公开资产,所有用户都可以查看该资产。 “指定用户可见”:输入账号名、账号ID或用户昵称搜索并选择用户,使其可见该资产。 可用范围 选择是否启用“申请用户可用”。 勾选
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/lib64 执行如下命令,查看训练环境的cuda版本,确认当前cuda版本是否支持so文件。 os.system("cat /usr/local/cuda/version
1~1 默认值:1 top_k 选择在模型的输出结果中选择概率最高的前K个结果。 取值范围:1~1000 默认值:20 在对话框中输入问题,查看返回结果,在线体验模型服务。 图2 体验模型服务
操作不会收取费用。 单击“操作记录”可查看当前资源池替换节点的操作记录。“运行中”表示节点在替换中。替换成功后,节点列表中会显示新的节点名称。 替换最长时间为24小时,超时后仍然未找到合适的资源,状态会变为“失败”。可将鼠标悬浮在图标上,查看具体失败原因。 每天累计替换的次数不超