检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
locate the specific problem.”,您可以参照下表对日志进行定位。 表1 数据集格式异常 控制台选择格式(预期格式) 实际格式 关键日志 MOSS Alpaca KeyError: 'chat' ShareGPT KeyError: 'chat' Alpaca
监控Lite Cluster资源 使用AOM查看Lite Cluster监控指标 使用Prometheus查看Lite Cluster监控指标 父主题: Lite Cluster资源管理
在Windows上安装配置Grafana 适用场景 本章节适用于在Windows操作系统的PC中安装配置Grafana。 操作步骤 下载Grafana安装包。 进入下载链接,单击Download the installer,等待下载成功即可。 安装Grafana。 双击安装包,按照指示流程安装完成即可。
由于环境或网络问题,读OBS时遇到读取数据失败情况,从而导致整个作业失败。 重复打印日志,该日志表示正在读取远端存在的文件,当文件列表读取完成以后,开始下载数据。如果文件比较多,那么该过程会消耗较长时间。 处理方法 在创建训练作业时,数据可以保存到OBS上。不建议使用Tens
监控Lite Server资源 使用CES监控Lite Server资源 使用DCGM监控Lite Server资源 父主题: Lite Server资源管理
日志提示Compile graph failed 问题现象 日志提示:Compile graph failed。 图1 报错提示 原因分析 模型转换时未指定Ascend后端。 处理方法 需要在模型转换阶段指定“--device=Ascend”。 父主题: 常见问题
参数类型 描述 obs_url String 日志OBS临时链接(复制到浏览器可查看当前全量日志)。 请求示例 如下以查询uuid为2cd88daa-31a4-40a8-a58f-d186b0e93e4f的训练作业对应work-0日志OBS临时链接为例。 GET https://
日志提示“no socket interface found” 问题现象 在pytorch镜像运行分布式作业时,设置NCCL日志级别,代码如下: import os os.environ["NCCL_DEBUG"] = "INFO" 会出现如下错误: job0879f61e-jo
日志提示“ValueError: label_map not match” 问题现象 日志提示“ValueError: label_map not match”,且打印出标签数据,如: ValueError: label_map not match. {1:'apple', 2:'orange'
用户创建模型时构建镜像或导入文件失败 问题现象 用户创建模型时,构建镜像失败,失败日志中提示下载obs文件失败(Get object size from OBS failed!)。 图1 下载obs文件失败 用户创建模型时,事件提示:复制模型文件失败,请检查OBS权限是否正常(Failed
日志提示“errorMessage:The specified key does not exist” 问题现象 在用moxing访问OBS路径时,出现如下错误: ERROR:root: stat:404 errorCode:NoSuchKey errorMessage:The specified
创建模型失败,提示模型镜像构建任务超时,没有构建日志 问题现象 创建模型失败,构建日志提示超时“Model image build task timed out”,没有详细构建日志。 图1 模型镜像构建任务超时 原因分析 imagePacker构建镜像有超时时间限制,默认值为30
状态码:200 表2 响应Body参数 参数 参数类型 描述 content String 日志内容。如果日志大小没有超过上限(n兆)则返回全部内容,如果日志超过了上限(n兆)则返回最新的n兆的日志。2022/03/01 00:00:00 (GMT+08:00)后,此参数名称由“context”改为“content”。
日志提示“Out of bounds nanosecond timestamp” 问题现象 在使用pandas.to_datetime转换时间时,出现如下报错: pandas._libs.tslibs.np_datetime.OutOfBoundsDatetime: Out of
日志提示“CUDNN_STATUS_NOT_SUPPORTED. ” 问题现象 在pytorch训练时,出现如下报错: RuntimeError: cuDNN error: CUDNN_STATUS_NOT_SUPPORTED. This error may appear if you
txt”的文件,并且在文件中指定此whl包的包名。依赖包必须为“.whl”格式的文件。 例如,“代码目录”对应的OBS路径下,包含模型文件、whl包,同时还存在“pip-requirements.txt”文件。“代码目录”的结构如下所示: |---模型启动文件所在OBS文件夹
日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” 问题现象 使用pandas读取csv数据表时,日志报出如下错误导致训练作业失败: pandas.errors.ParserError:
工具启动训练的方式。此方式训练完成后json日志或打屏日志直接打印性能结果,免于计算,方便用户验证发布模型的质量。并且新的训练方式将统一管理训练日志、训练结果和训练配置,使用yaml配置文件方便用户根据自己实际需求进行修改。 权重文件支持以下组合方式,用户根据自己实际要求选择: 训练stage
在左侧导航栏,选择“云服务监控 > ModelArts”。 查看监控图表。 查看在线服务监控图表:单击目标在线服务“操作”列的“查看监控指标”。 查看模型负载监控图标:单击目标在线服务左侧的,在下拉列表中选择模型负载“操作”列的“查看监控指标”。 在监控区域,您可以通过选择时长,查看对应时间的监控数据。
文件传输(推荐) 该接口支持上传本地文件和文件夹至OBS,支持下载OBS文件和文件夹至本地,推荐使用该接口。 示例代码 在ModelArts Notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 from modelarts