检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
输入在控制台不会回显 AKSK鉴权 如下命令表示使用AKSK进行鉴权,需要交互式输入AK及SK信息。默认提示AK和SK,且输入在控制台不会回显。 以下样例中所有以${}装饰的字符串都代表一个变量,用户可以根据实际情况指定对应的值。 比如${access key}表示输入用户自己的access key。
管理和查看数据处理任务 删除数据处理任务 当已有的数据处理任务不再使用时,您可以删除数据处理任务。 请注意,数据处理任务删除后不可恢复,请谨慎操作。 处于“完成”、“失败”、“已停止”、“运行失败”、“部署中”状态的训练作业,您可以单击操作列的“删除”,删除对应的数据处理任务。 查看数据处理任务详情
权重进行打包,在线转换会增加启动时间,可以提前对权重进行转换以减少启动时间,转换步骤如下: 进入llm_tools/AutoAWQ代码目录下执行以下脚本: 执行时间预计10分钟。执行完成后会将权重路径下的原始权重替换成转换后的权重。如需保留之前权重格式,请在转换前备份。 python
给子账号配置查看所有Notebook实例的权限 查找实例 Notebook页面展示了所有创建的实例。如果需要查找特定的实例,可根据筛选条件快速查找。 参考给子账号配置查看所有Notebook实例的权限后,进入“开发空间>Notebook”页面,打开“查看所有”开关,可以看到IAM
使用int8对权重进行打包,需要进行权重转换。 进入llm_tools/AutoAWQ代码目录下执行以下脚本: 执行时间预计10分钟。执行完成后会将权重路径下的原始权重替换成转换后的权重。如需保留之前权重格式,请在转换前备份。 python convert_awq_to_npu.py
权重进行打包,在线转换会增加启动时间,可以提前对权重进行转换以减少启动时间,转换步骤如下: 进入llm_tools/AutoAWQ代码目录下执行以下脚本: 执行时间预计10分钟。执行完成后会将权重路径下的原始权重替换成转换后的权重。如需保留之前权重格式,请在转换前备份。 python
对目标集群的6号卡step16与标杆集群的6号卡step16进行了api(cpu侧的torch aten算子任务下发)的性能对比。基于该对比数据,可以判断两张卡上的aten算子是否存在下发性能差异。 图8 目标集群profiling数据与标杆集群profiling数据的api下发对比
本章节适用于在ModelArts Standard的Notebook中安装配置Grafana。 前提条件 已创建CPU或GPU类型的Notebook实例,并处于运行中。 打开Terminal。 操作步骤 在Terminal中依次执行以下命令,下载并安装Grafana。 mkdir -p
参数配置 可以查看模型的apis定义详情,以及模型的入参和出参。 运行时依赖 查看模型对环境的依赖。当构建任务失败后可以编辑运行时依赖,保存修改后将触发镜像重新构建。 事件 展示模型创建过程中的关键操作进展。 事件保存周期为3个月,3个月后自动清理数据。 查看模型的事件类型和事件
设置为从c.从“设置”页签的“Grafana数据源配置信...获取的密码信息。 配置完成后,单击下方的“Save & test”,展示“Data source is working”代表配置数据源成功。 图6 配置数据源成功 父主题: 使用Grafana查看AOM中的监控指标
购买弹性公网IP,并绑定到购买的弹性云服务器ECS上,具体操作请参见《弹性公网IP快速入门》。 操作步骤 将本地命令复制至ECS服务器请参考如下方法: 在ECS桌面单击“复制粘贴”,使用快捷键“Ctrl+V”将命令粘贴至窗口中并单击“发送”,将复制的命令发送至命令行窗口,如下图所示。 图3
根据报错提示,需要排查是否将大量数据被保存在“/tmp”中。 处理方法 进入到“Terminal”界面。在“/tmp”目录下,执行命令du -sh *,查看该目录下的空间占用情况。 sh-4.3$cd /tmp sh-4.3$du -sh * 4.0K core-js-banners 0
在Windows上安装配置Grafana 在Linux上安装配置Grafana 在Notebook上安装配置Grafana 父主题: 使用Grafana查看AOM中的监控指标
CLI命令参考 ModelArts CLI命令功能介绍 (可选)本地安装ma-cli ma-cli auto-completion自动补全命令 ma-cli configure鉴权命令 ma-cli image镜像构建支持的命令 ma-cli ma-job训练作业支持的命令 ma-cli
在ModelArts控制台查看监控指标 在总览页查看ModelArts监控指标 在ModelArts控制台的总览页,支持查看生产概况(即总体作业运行数量)、资源占用情况、训练作业资源利用情况。您可以单击生产概况的链接、资源池名称、训练作业,跳转到对应界面查看更多详情。 图1 总览页查看监控信息
0”更换为“NVIDIA 515+CUDA 11.7”。 操作步骤 卸载原有版本的NVIDIA和CUDA。 查看使用apt包管理方式安装的nvidia软件包, 执行如下命令实现查看和卸载。 dpkg -l | grep nvidia dpkg -l | grep cuda sudo apt-get autoremove
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
update -y命令,导致软件NetworkManagre-config-server升级到高版本,出现SSH链接故障无法访问。 原因分析 查看yum命令历史,发现执行了“yum update -y”,“yum update -y”命令是用于在Linux操作系统上更新软件包的命令。其中,
Lite使用中遇到问题时,例如模型转换失败、训练后量化转换失败、模型推理失败、模型推理精度不理想、模型推理性能不理想、使用Visual Studio报错、使用Xcode构建APP报错等,您可以先查看日志信息进行定位分析。 多数场景下的问题可以通过日志报错信息直接定位。如果日志的信息不能定位问题,