检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ocker命令基本一致,可用于后续镜像构建步骤中。 # 下载 nerdctl 工具,注意使用的是1.7.6 arm64版本 wget https://github.com/containerd/nerdctl/releases/download/v1.7.6/nerdctl-1.7
2k条指令和演示的数据集。这些指令数据可以用来对语言模型进行指令调优,使语言模型更好地遵循指令。 预训练使用的Alpaca数据集下载:https://huggingface.co/datasets/tatsu-lab/alpaca/resolve/main/data/train-
79K-record的JSON格式的OSCAR数据集。 下载数据集。 wget https://huggingface.co/bigscience/misc-test-data/resolve/main/stas/oscar-1GB.jsonl.xz wget https://s3.amazonaws.com/models
0模型包并上传到宿主机上,官网下载地址:https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/tree/main 下载vae-fp16-fix模型包并上传到宿主机上,官网下载地址:https://huggingface
strings 允许远程接入的公网IP地址列表,最多5个。 service 否 String 支持的服务,枚举值如下: NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 key_pair_names 否 Array of strings
在服务器的任意目录下(本文以“/gallerycli”为例)新建CLI配置文件“config.env”,包含如下配置信息。 # IAM相关配置 iam_url=https://iam.myhuaweicloud.com/v3/auth/tokens iam_project=cn-north-7 iam_timeout=15
下载stable-diffusion-xl-base-1.0,官网下载地址:https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/tree/main 下载vae-fp16-fix,官网下载地址:https://huggingface.co/ma
error_code String 删除该模型失败的错误码。 model_id String 删除失败的模型id。 请求示例 DELETE https://{endpoint}/v1/{project_id}/models/{model_id} 响应示例 状态码:200 删除成功或者失败的提示信息。
String 工作空间ID。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 请求示例 查询标注团队列表 GET https://{endpoint}/v2/{project_id}/workforces 响应示例 状态码: 200 OK { "total_number"
me/ma-user/.ssh/etc/sshd_config 每24h向client端主动发个包,3次发包均无响应会断开连接 参考:https://unix.stackexchange.com/questions/3026/what-do-options-serveralive
参数类型 描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。 请求示例 https://{endpoint}/v1/{project_id}/services/a55eba18-1ebf-4e9a-8229-d2d3b593a3dc/tags/delete
"api_remark" : "string", "auth_type" : "APP", "predict_url" : "https://3565150c2e5c45d0989be40350dd80ed.apig.xxxxxx.com/test", "service_id"
定时调度策略中的标记,失败时触发。 on_running String 定时调度策略中的标记,running时触发。 请求示例 更新调度信息 PUT https://{endpoint}/v2/{project_id}/workflows/{workflow_id}/schedules/fa4a
请求是否成功。 请求示例 如下以查询“job_id”为10,“version_id”为10,文件名为“log1.log”的日志为例。 GET https://endpoint/v1/{project_id}/training-jobs/10/versions/10/aom-log?log_file=log1
描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。 请求示例 GET https://{endpoint}/v2/{project_id}/statistics/pools/{pool_name}/workloads
如果训练失败,则会执行sleep命令,此时可通过Cloud Shell登录容器镜像中调试。 在Cloud Shell中调试多节点训练作业时,需要在Cloud Shell中切换work0、work1来实现对不同节点下发启动命令,否则任务会处于等待其他节点的状态。 如何防止Cloud Shell的Session断开
为docker镜像的ID,在宿主机上可通过docker images查询得到。 --shm-size:表示共享内存,用于多进程间通信。由于需要转换较大内存的模型文件,因此大小要求200g及以上。 通过容器名称进入容器中。启动容器时默认用户为ma-user用户。 docker exec
python3 python3-pip && \ pip3 install --trusted-host https://repo.huaweicloud.com -i https://repo.huaweicloud.com/repository/pypi/simple Flask
取值为auto。 model_id String 模型ID。 src_path String 批量任务输入数据的OBS路径,例如:“https://xxx.obs.myhwclouds.com/image/”。 req_uri String 批量任务中调用的推理路径,例如:“/”。
py #构造vllm评测配置脚本名字 ├──vllm_ppl.py #ppl精度测试脚本 精度评测切换conda环境,确保之前启动服务为vllm接口,进入到benchmark_eval目录下,执行如下命令。 conda activate python-3