检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Notebook有代理吗?如何关闭? Notebook有代理。 执行env|grep proxy命令查询Notebook代理。 执行unset https_proxy unset http_proxy命令关闭代理。 父主题: 环境配置相关
服务状态一直处于“部署中”,查看模型日志未发现服务有明显错误。 原因分析 一般情况都是模型的端口配置有问题。建议您首先检查创建模型的端口是否正确。 处理方法 模型的端口没有配置,如您在自定义镜像配置文件中修改了端口号,需要在部署模型时,配置对应的端口号,使新的模型重新部署服务。
myhuaweicloud.com。 原因分析 在Notebook中访问公网需要通过代理,访问huawei.com不通过公网代理,huaweicloud.com域名在no_proxy/NO_PROXY中包含,就访问不了。 解决方式 执行以下命令查看在no_proxy/NO_PROXY中是否包含huaweicloud
使用自定义镜像创建在线服务,如何修改默认端口 当模型配置文件中定义了具体的端口号,例如:8443,创建AI应用没有配置端口(默认端口号为8080),或者配置了其他端口号,均会导致服务部署失败。您需要把AI应用中的端口号配置为8443,才能保证服务部署成功。 修改默认端口号,具体操作如下: 登录ModelArts控制台,左侧菜单选择“AI应用管理
购买的所有类型的计算资源均不支持跨Region使用。 计算资源 套餐包 套餐包仅用于公共资源池,不能用于专属资源池。 配额限制 查看每个配额项目支持的默认配额,请参考怎样查看我的配额?,登录控制台查询您的配额详情。 表2 配额 资源类型 默认配额限制 是否支持调整 说明 Standard Notebook
资源被临时移动。 303 See Other 查看其它地址。 使用GET和POST请求查看。 304 Not Modified 所请求的资源未修改,服务器返回此状态码时,不会返回任何资源。 305 Use Proxy 所请求的资源必须通过代理访问。 306 Unused 已经被废弃的HTTP状态码。
删除:针对模型的某一版本进行删除。 查看模型详情 当模型创建成功后,您可以进入模型详情页查看模型的信息。 登录ModelArts管理控制台,在左侧菜单栏中选择“模型管理”,进入“自定义模型”列表页面。 单击目标模型名称,进入模型详情页面。 您可以查看模型的基本信息、模型精度,以及切换页签查看更多信息。 表3
的第三方组件可通过API http://<节点IP>:<端口号>/metrics获取ModelArts采集到的指标数据。 开通前需要确认使用的端口号,端口号可选取10120~10139范围内的任一端口号,请确认选取的端口号在各个节点上都没有被其他应用占用。 Kubernetes下
G(API网关)和模型。 处理方法 优先排查APIG(API网关)是否是通的,可以在本地使用curl命令排查,命令行:curl -kv {预测地址}。如返回Timeout则需排查本地防火墙,代理和网络配置。 检查模型是否启动成功或者模型处理单个消息的时长。因APIG(API网关)
查看训练作业详情 登录ModelArts管理控制台。 在左侧导航栏中,选择“模型训练 > 训练作业”,进入“训练作业”列表。 在作业列表,单击“导出”,可以将训练作业根据时间周期导出Excel表到本地。最多只支持导出前200行数据。 在“训练作业”列表中,单击作业名称,进入训练作业详情页。
在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,VS Code打开后未进行远程连接 若本地为Linux系统,见原因分析二。 原因分析一 自动安装VS Code插件ModelArts-HuaweiCloud失败。 解决方法一 方法一:检查VS Code网络是否正常。在VS
在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,VS Code打开后未进行远程连接 若本地为Linux系统,见原因分析二。 原因分析一 自动安装VS Code插件ModelArts-HuaweiCloud失败。 解决方法一 方法一:检查VS Code网络是否正常。在VS
t, save_path=FLAGS.train_url) 复制数据集到本地 复制数据集到本地主要是为了防止长时间访问OBS容易导致OBS连接中断使得作业卡住,所以一般先将数据复制到本地再进行操作。 数据集复制有两种方式,推荐使用OBS路径复制。 OBS路径(推荐) 直
如何查看训练作业资源占用情况? 在ModelArts管理控制台,选择“模型训练>训练作业”,进入训练作业列表页面。在训练作业列表中,单击目标作业名称,查看该作业的详情。您可以在“资源占用情况”页签查看到如下指标信息。 CPU:CPU使用率(cpuUsage)百分比(Percent)。
配额限制,帮助用户查看和管理自己的配额。 什么是配额 配额是在某一区域下最多可同时拥有的某种资源的数量。 华为云为防止资源滥用,对云服务每个区域的用户资源数量和容量做了配额限制。 如果当前资源配额限制无法满足使用需要,您可以申请扩大配额。 怎样查看配额 如需查看每个配额项目支持的
选择修改,修改后,单击保存即可生效。 修改DashBoard查询数据时间范围 图7 修改查询数据时间范围 单击右上角图标,即可修改DashBoard整体的数据查询时间。除固定查询时间外的其他panel,都会应用该数据查询时间范围。 增加新panel 图8 新增一个panel 单击
并在日志窗口上方提供全量日志访问链接。打开该链接可在新页面查看全部日志。 图5 查看全量日志 如果全部日志超过500M,可能会引起浏览页面卡顿,建议您直接下载日志查看。 预览链接在生成后的一小时内,支持任何人打开并查看。您可以分享链接至他人。 请注意日志中不能包含隐私内容,否则会造成信息泄露。
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
查看日志和性能 查看日志 训练过程中,训练日志会在第一个的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件 查看性能