检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
查看日志和性能 查看日志 训练过程中,训练日志会在第一个的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件 查看性能
查询API和APP 功能介绍 查询服务授权的API、APP信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/servi
调用API接口创建训练作业和部署服务时,如何填写资源池的参数? 调用API接口创建训练作业时,“pool_id”为“资源池ID”。 调用API接口部署在线服务时,“pool_name”为“资源池ID” 。 图1 资源池ID 父主题: API/SDK
查看日志和性能 查看日志 训练过程中,训练日志会在第一个的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件 查看性能
查看日志和性能 查看日志 若查看启动作业日志信息,可通过以下命令打印正在启动的日志信息。其中${pod_name}为pod信息中的NAME,例如vcjob-main-0。 kubectl logs -f ${pod_name} 训练过程中,训练日志会在最后的Rank节点打印。 图1
查看日志和性能 查看日志 若查看启动作业日志信息,可通过以下命令打印正在启动的日志信息。其中${pod_name}为pod信息中的NAME,例如vcjob-main-0。 kubectl logs -f ${pod_name} 训练过程中,训练日志会在最后的Rank节点打印。 图1
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
查看日志和性能 查看日志 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为:/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs
查看日志和性能 查看日志 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为:/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs
管理团队和团队成员 修改成员信息 团队中的成员,当其信息发生变化时,可以编辑其基本情况。 在“团队详情”区域,选择需修改的成员。 在成员所在行的“操作”列,单击“修改”。在弹出的对话框中,修改其“描述”或“角色”。 成员的“邮箱”无法修改,如果需要修改邮箱地址,建议先删除此成员,然后再基于新的邮箱地址添加新成员。
目前jupyter插件多数采用wheel包的形式发布,一次性完成前后端插件的安装,安装时注意使用jupyter服务依赖的环境“/modelarts/authoring/notebook-conda/bin/pip”进行安装,不要使用默认的anaconda(kernel依赖的python环境)的pip进行安装。
规格中数字分别代表什么含义? 在创建作业时,若需选择资源规格,您可通过规格名称了解对应规格的相关信息,如加速卡显存、CPU核心数、内存、硬盘大小。 例如,“GPU: 1*GP-Vnt1(32GB) | CPU: 8 核 64GB 3200GB”中,32G为GPU显存、8核为CPU
方法二:新建一个文件夹,移动checkpoints文件夹的数据到新建的文件夹下。 执行mkdir xxx命令,新建一个文件夹,例如“xxx”(不要用checkpoints关键字命名) 然后移动checkpoints文件夹的数据到新建的文件夹下,删除根目录下checkpoints文件夹即可。 mv
在Notebook中安装 例如,通过JupyterLab在“TensorFlow-1.8”的环境中安装Shapely。 打开一个Notebook实例,进入到Launcher界面。 在“Notebook”区域下,选择“TensorFlow-1.8”,新建一个ipynb文件。 在新建的Notobook中,在代码输入栏输入如下命令。
资源和引擎规格接口 查询资源规格列表 查询引擎规格列表 父主题: 训练管理
获取项目ID和名称 操作场景 在调用接口的时候,部分请求中需要填入项目ID或项目名称,所以需要获取到项目ID和名称。有如下两种获取方式: 从控制台获取项目ID和名称 调用API获取项目ID 从控制台获取项目ID和名称 从控制台获取项目ID(project_id)和名称(project
如何导入大文件到Notebook中? 大文件(大于100MB的文件) 针对大文件,建议使用OBS服务上传文件。使用OBS客户端,将本地文件上传至OBS桶中,然后使用ModelArts SDK从OBS下载文件至Notebook本地。 使用OBS客户端上传文件的操作指导:上传文件。 使用ModelArts
服务状态一直处于“部署中” 问题现象 服务状态一直处于“部署中”,查看模型日志未发现服务有明显错误。 原因分析 一般情况都是模型的端口配置有问题。建议您首先检查创建模型的端口是否正确。 处理方法 模型的端口没有配置,如您在自定义镜像配置文件中修改了端口号,需要在部署模型时,配置对应的端口号,使新的模型重新部署服务。
在本地PC的hosts文件中配置域名和IP地址的对应关系。 三、网络代理设置 如果用户使用的网络有代理设置要求,请检查代理配置是否正确。也可以使用手机热点网络连接进行测试排查。 检查代理配置是否正确。 图2 PyCharm网络代理设置 四、AK/SK不正确 获取到的AK/SK信