检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
必现的问题,使用本地Pycharm远程连接Notebook调试。 建议与总结 在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。 配置本地IDE(Pycha
必现的问题,使用本地Pycharm远程连接Notebook调试。 建议与总结 在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。 配置本地IDE(Pycha
止。单位:毫秒。 endpoints 否 Array of EndpointsReq objects 本地IDE(如PyCharm、VS Code)或SSH客户端,通过SSH远程接入Notebook实例时需要的相关配置。 feature 否 String 实例类别,默认为NOTEBOOK。枚举值:
write line error”。并且问题是必现问题,每次运行到同一地方的时候,出现错误。 原因分析 出现该问题的可能原因如下: 程序运行过程中,产生了core文件,core文件占满了"/"根目录空间。 本地数据、文件保存将"/cache"目录3.5T空间用完了。 云上训练磁盘空间一般指如下两个目录的磁盘空间:
专属资源池需单独创建,不与其他租户共享。 实例规格 选择实例规格,规格中描述了服务器类型、型号等信息。 更多选项 永久保存日志 选择是否打开“永久保存日志”开关。 开关关闭(默认关闭):表示不永久保存日志,则任务日志会在30天后会被清理。可以在任务详情页下载全部日志至本地。 开关打开:表示永久保存日志,此时必须配置
关于Ant8裸金属服务器的购买,可以在华为云官网提工单至ModelArts云服务, 完成资源的申请。 步骤1 安装模型 安装Megatron-DeepSpeed框架。 使用root用户SSH的方式登录GPU裸金属服务器。具体登录方式请参见SSH密钥方式登录裸金属服务器。 拉取pyto
Step6 准备镜像 创建ECS。 参考ECS文档购买弹性云服务器。网络配置、高级配置等后续步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,并在控制台发送后续步骤中的远程命令。 注意:创建的ECS虚拟机使用ARM镜像创建。 图1 购买ECS 安装Docker。 检查docker是否安装。
状态,如果实例已停止,请执行启动操作,如果实例处于其他状态比如“错误”,请尝试先执行停止然后执行启动操作。待实例变为“运行中”后,再次执行远程连接。 父主题: VS Code连接开发环境失败故障处理
进入容器环境,创建自己的工作目录。 由于在Snt9B裸金属服务器环境配置指南的配置环境步骤中,在启动容器时将物理机的home目录挂载到容器的“/home_host”目录下,该目录可以直接使用上传到物理机“home”目录下的文件。本文中,将基于容器的“/home_host”目录创建工作目录。
将数据预热到SFS Turbo 训练任务开始前可通过数据预热功能将文件元数据和数据内容全部从OBS导入到SFS Turbo高性能文件存储中,数据预热功能的具体操作请参考创建SFS Turbo 和 OBS 之间的联动任务。 在ECS服务器挂载SFS Turbo已经将SFS Turb
应用开发过程的输出内容划分到不同工作空间中,便于管理和使用。 远程接入管理 使用本地IDE远程SSH连接ModelArts的Notebook开发环境时,需要用到密钥对进行鉴权认证。同时支持白名单访问控制,即设置允许远程接入访问这个Notebook的IP地址。 父主题: 安全
开即用。 ModelArts也提供了本地IDE的方式开发模型,通过开启SSH远程开发,本地IDE可以远程连接到调试训练作业中,进行调试和运行代码。本地IDE方式不影响用户的编码习惯,并且调试完成的代码可以零成本直接创建生产训练作业。支持的本地IDE请参考使用PyCharm ToolKit创建并调试训练作业。
IDL中的WebSocket API由W3C标准化。 WebSocket使得客户端和服务器之间的数据交换变得更加简单,允许服务端主动向客户端推送数据。在WebSocket API中,浏览器和服务器只需要完成一次握手,两者之间就可以建立持久性的连接,并进行双向数据传输。 前提条件
将Notebook的Conda环境迁移到SFS磁盘 本文介绍了如何将Notebook的Conda环境迁移到SFS磁盘上。这样重启Notebook实例后,Conda环境不会丢失。 步骤如下: 创建新的虚拟环境并保存到SFS目录 克隆原有的虚拟环境到SFS盘 重新启动镜像激活SFS盘中的虚拟环境
job_name="cifar10-dis") 在本地调测完成的基础上,只需要Estimator初始化时将参数train_instance_type修改为训练服务支持的规格即可(即第10步查询出来的flavor_id的值)。执行fit函数后,即可提交远程训练任务。 训练任务提交后,SDK会依次帮助用户完成以下流程:
如何减小本地或ECS构建镜像的目的镜像的大小? 减小目的镜像大小的最直接的办法就是选择尽可能小且符合自己诉求的镜像,比如您需要制作一个PyTorch2.1+Cuda12.2的镜像,官方如果没有提供对应的PyTorch或者Cuda版本的镜像,优选一个没有PyTorch环境或没有安装
enabled” 原因分析 出现该问题的可能原因如下: 新安装的包与镜像中带的CUDA版本不匹配。 处理方法 必现的问题,使用本地Pycharm远程连接Notebook调试安装。 先远程登录到所选的镜像,使用“nvcc -V”查看目前镜像自带的CUDA版本。 重装torch等,需要注意选择与上一步版本相匹配的版本。
对应的边缘可用区。边缘可用区将云基础设施和云服务部署到企业现场,适合对应用访问时延、数据本地化留存及本地系统交互等有高要求的场景,可便捷地将云端丰富应用部署到本地,CloudPond介绍可参考产品介绍。 表3 集群配置参数说明 参数名称 说明 服务器名称 Server的机器名称。
模型管理和服务管理等操作。 ModelArts SDK支持在本地安装配置使用。使用时,需进行Session鉴权。 本地安装SDK。如果本地未安装SDK,可参考(可选)本地服务器安装ModelArts SDK安装;如果本地已安装,则无需再次安装。 进行Session鉴权。可参见(可
String 实例描述。 endpoints Array of EndpointsRes objects 本地IDE(如PyCharm、VS Code)或SSH客户端,通过SSH远程接入Notebook实例时需要的相关配置。 fail_reason String 实例失败原因。 flavor