检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
main/ptuning/main.py MASTER_PORT=$(shuf -n 1 -i 10000-65535) deepspeed --num_gpus=8 --master_port $MASTER_PORT ${APP_SCRIPT} \ --deepspeed
jupyter kernelgateway --KernelGatewayApp.ip=${HOST_IP} --KernelGatewayApp.port=8889 --KernelGatewayApp.api=${API_TYPE} --KernelGatewayApp.auth_tok
解决方案 检查用户.ssh配置文件(路径一般在“C:\Users\{User}\.ssh\config”下),检查每组配置文件是否规范:Host必须放在每组配置的第一行,作为每组配置的唯一ID。 如下,第一组配置文件不规范将Host放到最后一行,用户要连的是下面这个Host Mod
修改模型权重路径${model_path},保持其余参数一致。脚本参数设置如下: #!/bin/bash GPUS_PER_NODE=8 NNODES=1 NODE_RANK=0 MASTER_ADDR=localhost MASTER_PORT=6001 MODEL=${mdoel_path}
""" os.environ['MASTER_ADDR'] = '127.0.0.1' os.environ['MASTER_PORT'] = '29500' dist.init_process_group(backend, rank=rank, world_size=size)
脚本执行目录不能是共享目录,否则ranktable路由加速会失败。 路由加速的原理是改变rank编号,所以代码中对rank的使用要统一,如果rank的使用不一致会导致训练异常。 操作步骤 开启ModelArts Lite资源池对应的CCE集群的cabinet插件。 在ModelArts
是 String 训练作业参数的名称。 表2 Query参数 参数 是否必选 参数类型 说明 config_type 否 String 指定要查询的配置类型,可选值有以下两种 “custom”为查询用户自定义配置。 “sample”为查询示例配置,默认为“custom”。 请求消息
cuda版本不一致。 处理方法 编译环境的cuda版本与训练环境不一致,训练作业运行就会报错。例如:使用cuda版本为10的开发环境tf-1.13中编译生成的so包,在cuda版本为9.0训练环境中tf-1.12训练会报该错。 编译环境和训练环境的cuda版本不一致时,可参考如下处理方法:
real-time代表在线服务,将模型部署为一个Web Service,并且提供在线的测试UI与监控能力,服务一直保持运行。 batch为批量服务,批量服务可对批量数据进行推理,完成数据处理后自动停止。 edge表示边缘服务,通过华为云智能边缘平台,在边缘节点将模型部署为一个Web Service,
Windows:C:\Users\{{user}} macOS/Linux: Users/{{user}} 密钥对在用户第一次创建时自动下载,之后使用相同的密钥时不会再有下载界面(请妥善保管),或者每次都使用新的密钥对。 创建一个Notebook实例,并开启远程SSH开发,具体参见创建Notebook实例。 Step4
must be "0.0.0.0", port must be 8080 if __name__ == '__main__': app.run(host="0.0.0.0", port=8080) 执行代码,执行后如下图所示,会部署一个在线服务,该容器即为服务端。 python
910版本,请参考获取配套版本的软件包和镜像,请严格遵照版本配套关系使用本文档。 确保容器可以访问公网。 资源规格要求 推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。 获取软件和镜像 表1 获取软件和镜像 分类 名称 获取路径 插件代码包
'/home/ma-user/work/grf/grafana-9.1.6', 'web'], 'timeout': 1800, 'port': 3000 } } 如果“/home/ma-user/.local/etc/jupyter/jupyter_notebook_config
数据准备完成后,启动训练的脚本,查看训练是否能够正常拉起。一般来说,启动脚本为: cd /cache/code/ python start_train.py 如果训练流程不符合预期,可以在容器实例中查看日志、错误等,并进行代码、环境变量的修正。 预制脚本测试整体流程 一般使用run.sh封装训练外的文件
在线服务实例部署的虚拟私有云ID,默认为空,此时ModelArts会为每个用户分配一个专属的VPC,用户之间隔离;如需要在服务实例中访问名下VPC内的其他服务组件,则可配置此参数为对应VPC的ID。VPC一旦配置,不支持修改。当vpc_id与cluster_id一同配置时,只有专属资源池参数生效。 service_name
配置Workflow的输入输出目录 功能介绍 统一存储主要用于工作流的目录管理,帮助用户统一管理一个工作流中的所有存储路径,主要分为以下两个功能: 输入目录管理:开发者在编辑开发工作流时可以对所有数据的存储路径做统一管理,规定用户按照自己的目录规划来存放数据,而存储的根目录可以根
会同步到标注作业的已标注页面中。 一旦标注数据完成验收,团队成员无法再修改标注信息,只有数据集创建者可修改。 表1 完成验收的参数设置 参数 说明 对已标注数据修改 不覆盖:针对同一个数据,不使用当前团队标注的结果覆盖已有数据。 覆盖:针对同一个数据,使用当前团队标注的结果覆盖已有数据。覆盖后无法恢复,请谨慎操作。
调用获取训练作业支持的AI预置框架接口查看训练作业支持的引擎类型和版本。 调用创建算法接口创建一个算法,记录算法id。 调用创建训练作业接口使用刚创建的算法返回的uuid创建一个训练作业,记录训练作业id。 调用查询训练作业详情接口使用刚创建的训练作业返回的id查询训练作业状态。
address 0.0.0.0/0 and port 8080. 安全组须包含至少一条入方向规则,对协议为TCP、源地址为0.0.0.0/0、端口为8080的请求放行。 在安全组中添加一条入方向规则:对协议为TCP、源地址为0.0.0.0/0、端口为8080的请求放行。 400 ModelArts
数据集版本名称。 with_column_header Boolean 发布的CSV文件的第一行是否为列名,对于表格数据集有效。可选值如下: true:发布的CSV文件的第一行是列名 false:发布的CSV文件的第一行不是列名 表10 LabelStats 参数 参数类型 描述 attributes