云服务器内容精选

  • Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1,执行以下命令配置IP转发。 sed -i 's/net\.ipv4\.ip_forward=0/net\.ipv4\.ip_forward=1/g' /etc/sysctl.conf sysctl -p | grep net.ipv4.ip_forward
  • 创建OBS桶 ModelArts使用 对象存储服务 (Object Storage Service,简称OBS)进行数据存储以及模型的备份和快照,实现安全、高可靠和低成本的存储需求。因此,在使用ModelArts之前通常先创建一个OBS桶,然后在OBS桶中创建文件夹用于存放数据。 本文档也以将运行代码以及输入输出数据存放OBS为例,请参考创建OBS桶,例如桶名:standard-llama2-13b。并在该桶下创建文件夹目录用于后续存储代码使用,例如:training_data。
  • 策略语法 给用户组选择策略时,单击策略下方的,可以查看策略的详细内容,以“DWS Administrator”为例,说明RBAC策略的语法。 图2 RBAC策略语法 { "Version": "1.0", "Statement": [ { "Effect": "Allow", "Action": [ "dws:dws:*" ] } ], "Depends": [ { "catalog": "BASE", "display_name": "Server Administrator" }, { "catalog": "BASE", "display_name": "Tenant Guest" } ] } 参数 含义 值 Version 策略的版本。 固定为“1.0”。 Statement Action 定义对 GaussDB (DWS) 的具体操作。 格式为:服务名:资源类型:操作 "dws:dws:*",表示对GaussDB(DWS) 的所有操作,其中dws为服务名称;“*”为通配符,表示对所有GaussDB(DWS) 的资源类型可以执行所有操作。 Effect 定义Action中所包含的具体操作是否允许执行。 Allow:允许执行。 Deny:不允许执行。 Depends catalog 依赖的其他策略的所属目录。 服务名称 例如:BASE display_name 依赖的其他权限的名称。 权限名称 例如:Server Administrator 在使用RBAC鉴权时要注意Depends参数,使用时要把依赖的其他权限同时授予。 例如DWS Administrator权限使用时依赖Server Administrator以及Tenant Guest,在给用户授权时要同时把依赖的两个权限授予用户。
  • 规格限制 除表格类型之外的数据集(如视频、文本、音频等),单个数据集的最大样本数量限制:1000000,最大标签数量限制:10000。 除图片类型之外的数据集(如视频、文本、音频等),单个样本大小限制:5GB。 针对图片类数据集(物体检测、图像分类、图像分割),单个图片大小限制:25MB。 单个manifest文件大小限制:5GB。 文本文件单行大小限制:100KB。 数据管理标注结果文件大小限制:100MB。
  • 数据集的类型 当前ModelArts支持如下格式的数据集。 图片:对图像类数据进行处理,支持 .jpg、.png、.jpeg、.bmp四种图像格式,支持用户进行图像分类、物体检测、图像分割类型的标注。 音频:对音频类数据进行处理,支持.wav格式,支持用户进行声音分类、语音内容、语音分割三种类型的标注。 文本:对文本类数据进行处理,支持.txt、.csv格式,支持用户进行文本分类、命名实体、文本三元组三种类型的标注。 视频:对视频类数据进行处理,支持.mp4格式,支持用户进行视频标注。 自由格式:管理的数据可以为任意格式,目前不支持标注,适用于无需标注或开发者自行定义标注的场景。如果您的数据集需存在多种格式数据,或者您的数据格式不符合其他类型数据集时,可选择自由格式的数据集。 表格 表格:适合表格等结构化数据处理。数据格式支持csv。不支持标注,支持对部分表格数据进行预览,但是最多支持100条数据预览。
  • 不同类型数据集支持的功能列表 其中,不同类型的数据集支持不同的功能,如智能标注、团队标注等。详细信息参考表1。 表1 不同类型的数据集支持的功能 数据集类型 标注类型 创建数据集 导入数据 导出数据 发布数据集 修改数据集 管理版本 智能标注 团队标注 自动分组 数据特征 图片 图像分类 支持 支持 支持 支持 支持 支持 支持 支持 支持 支持 物体检测 支持 支持 支持 支持 支持 支持 支持 支持 支持 支持 图像分割 支持 支持 支持 支持 支持 支持 - - 支持 - 音频 声音分类 支持 支持 - 支持 支持 支持 - - - - 语音内容 支持 支持 - 支持 支持 支持 - - - - 语音分割 支持 支持 - 支持 支持 支持 - 支持 - - 文本 文本分类 支持 支持 - 支持 支持 支持 - 支持 - - 命名实体 支持 支持 - 支持 支持 支持 - 支持 - - 文本三元组 支持 支持 - 支持 支持 支持 - 支持 - - 视频 视频 支持 支持 - 支持 支持 支持 - - - - 自由格式 自由格式 支持 - _ 支持 支持 支持 - - - - 表格 表格 支持 支持 - 支持 支持 支持 - - - -
  • 创建OBS操作步骤 登录OBS管理控制台,在桶列表页面右上角单击“创建桶”,创建OBS桶。例如,创建名称为“c-flowers”的OBS桶。 图2 创建桶 创建桶的区域需要与ModelArts所在的区域一致。例如:当前ModelArts在华北-北京一区域,在对象存储服务创建桶时,请选择华北-北京一。 如何查看OBS桶与ModelArts的所处区域,请参见查看OBS桶与ModelArts是否在同一区域。 请勿开启桶加密,ModelArts不支持加密的OBS桶,会导致ModelArts读取OBS中的数据失败。 在桶列表页面,单击桶名称,进入该桶的概览页面。 图3 桶列表 单击左侧导航的“对象”,在对象页面单击新建文件夹,创建OBS文件夹。例如,在已创建的OBS桶“c-flowers”中新建一个文件夹“flowers”。 图4 新建文件夹 在OBS桶中创建完文件夹,既可以上传文件,上传文件操作请参见
  • 操作场景 服务扩展点是CodeArts的一种扩展插件,为CodeArts提供连接第三方服务的能力。 当CodeArts中的一些任务需要连接到远程第三方服务,进行一些获取数据操作时,例如连接第三方GitHub仓库获取项目源码、连接第三方Jenkins服务执行Jenkins任务等,可以通过新建扩展点来实现与相应服务的连接。 CodeArts支持以下扩展点。 表1 服务扩展点 类型 使用场景 Docker repository 用于连接Docker镜像仓库,连接成功后可以通过部署服获取仓库中的Docker镜像。 Jenkins 用于连接Jenkins服务,连接成功后可以在流水线中调用并执行Jenkins服务中所包含的任务。 Kubernetes 用于连接Kubernetes集群,连接成功后可对Kubernetes集群下发部署任务。 nexus repository 用于连接第三方私有Maven仓库,连接成功后可以通过构建任务获取该仓库中文件信息。 通用Git 用于连接第三方Git仓库,连接成功后可以在流水线、构建等服务中获取该仓库的分支等信息。 码云Git 用于连接码云Git账号,连接成功后可以在流水线、构建等服务中获取该账号的仓库、分支等信息。 GitHub 用于连接Github账号,连接成功后可以在流水线、构建等服务中获取该账号的仓库、分支等信息。 IAM 账户 用于委托自己账号的AK/SK给需要执行任务的账号,在该账号执行部署任务的时候可以通过AK/SK获得被委托的账号的token执行更高权限的任务。 CodeArts Repo HTTPS 用于授权CodeArts服务对托管的Repo仓库进行代码下载、分支创建、分支合并、代码提交等操作。当前主要用于流水线服务的微服务变更功能模块及其相关插件。 Gerrit 用于连接第三方Gerrit仓库,连接成功后可以在流水线、构建等服务中获取该仓库代码。 GitCode 用于连接GitCode账号,连接成功后可以在流水线、构建等服务中获取该账号的仓库、分支等信息。
  • 添加密钥 登录RES管理控制台,在左侧导航栏单击“全局配置”,进入“全局配置”页面。 单击“添加密钥””,填写获取的访问密钥。 访问密钥(AK):输入密钥文件中的Access Key Id字段内容。 私有访问密钥(SK):输入密钥文件中Secret Access Key字段内容。 在添加AK/SK前,需要在OBS至少创建一个桶,否则会校验失败。具体操作请参见创建OBS桶。 请确保所填写的AK、SK为当前账号所获取的。 如果您添加访问密钥时,提示“上传的AK/SK不可用”,可能账号状态异常,欠费或被冻结。如有欠费,请您为华为云账户充值。如有其它问题请您提工单联系工程师解决。 单击“确认”,完成访问密钥的添加。
  • 注册华为账号 并开通华为云 在使用华为云服务之前您需要申请华为云账号并进行实名认证。通过此账号,您可以使用所有华为云服务,并且只需为您所使用的服务付费。 如果您已有一个华为云账号,请跳到下一个任务。如果您还没有华为云账号,请参考以下步骤创建。 打开华为云官网,单击“注册”。 根据提示信息完成注册,详细操作请参见注册华为账号并开通华为云。 注册成功后,系统会自动跳转至您的个人信息界面。 参考实名认证完成个人或企业账号实名认证。 父主题: 准备工作
  • 配置运行环境 obsfs的运行环境依赖openssl-devel、fuse、fuse-devel等软件包,运行obsfs之前,您需要通过命令配置其依赖环境。 obsfs支持使用的libfuse版本为2.9.7,2.9.8或2.9.9。如果当前您的libfuse是其他版本,请参考libfuse安装指导进行安装。 您可以通过操作系统自有的查看命令查看libfuse版本,也可以通过以下命令查找libfuse.so以获得当前已安装版本。 find / -name libfuse.so* CentOS 7 yum install -y openssl-devel fuse fuse-devel Ubuntu 16 apt-get install -y libfuse-dev libcurl4-openssl-dev
  • 数据集要求 文件规范:名称由以字母数字及中划线下划线组成,以'.csv'结尾,且文件不能直接放在OBS桶的根目录下,应该存放在OBS桶的文件夹内。如:“/obs-xxx/data/input.csv”。 文件内容:文件保存为“csv”文件格式,文件内容以换行符(即字符“\n”,或称为LF)分隔各行,行内容以英文逗号(即字符“,”)分隔各列。文件内容不能包含中文字符,列内容不应包含英文逗号、换行符等特殊字符,不支持引号语法,建议尽量以字母及数字字符组成。 训练数据: 训练数据列数一致,总数据量不少于100条不同数据(有一个特征取值不同,即视为不同数据)。 训练数据列内容不能有时间戳格式(如:yy-mm-dd、yyyy-mm-dd等)的数据。 如果某一列的取值只有一种,会被视为无效列。请确保标签列的取值至少有两个且无数据缺失。 标签列指的是在训练任务中被指定为训练目标的列,即最终通过该数据集训练得到模型时的输出(预测项)。 除标签列外数据集中至少还应包含两个有效特征列(列的取值至少有两个且数据缺失比例低于10%)。 训练数据的csv文件不能包含表头,否则会导致训练失败。
  • 数据配比功能介绍 用户针对业务场景,可以通过数据配比功能,自由组合多个数据集,并控制数据占比。 数据集来源:用户自己创建并且已经发布的数据集。 数据集组合:选择多个数据集,并且可以指定数据之间的配比和条数,最大支持20个。 配比的作用:支持用户灵活调整数据集的比例。 比例:用户自己创建的数据集,默认1:1:1的方式。例如,3个数据集D1(100GB)、D2(50GB)、D3(200GB),配比按照最大比例去配比,即为D1(50GB)、D2(50GB)、D3(50GB),则3*50=150GB,此时用户可以控制最大的数据量,限制数据量大小,如100GB。 表1 配置比例 配置比例 数据集大小上限500GB 第一阶段 第二阶段 - 数据集 原始大小 默认值 手动修改 实际大小 D1 100GB 1 1 100GB D2 50GB 1 2 50GB D3 200GB 1 1 200GB 训练数据集PD1 / 15 15 750GB 条数:用户指定每个数据集需要提供的条数;如果某个数据集的条数不满足用户需求,则提示用户重新输入,避免用户无感配置失败。 条数:不提供配比,默认全都选上。 表2 配置条数 配置条数 数据集大小上限500GB 第一阶段 第二阶段 - 数据集 原始大小 默认值 手动修改 实际条数 D1 100 100 100 53 D2 50 50 50 27 D3 200 200 100 53 训练数据集PD1 / / 1250 667
  • 开通盘古大模型服务 盘古大模型具备文本补全和多轮对话能力,用户在完成盘古大模型套件的订购操作后,需要开通大模型服务,才可以调用模型,实现与模型对话问答。 登录盘古大模型套件平台。 在左侧导航栏中选择“服务管理”,在相应服务的操作列单击“查看详情”,可在服务列表中申请需要开通的服务。 文本补全:提供单轮文本能力,常用于文本生成、文本摘要、闭卷问答等任务。 多轮对话:提供多轮文本能力,常用于多轮对话、聊天任务。 图1 服务管理 图2 申请开通服务 您可按照需要选择是否开启 内容审核 。 开启内容审核后,可以有效拦截大模型输入输出的有害信息,保障模型调用安全,推荐进行开启。 图3 大模型内容审核 购买内容审核套餐包时,如果使用“文本补全”和“多轮对话”功能,需要选择“ 文本内容审核 ”套餐。 父主题: 准备工作
  • Linux操作系统 获取登录密码 使用公共镜像创建的云服务器,默认已经安装一键式重置密码插件。如果您忘记密码或密码过期,可以通过重置密码功能重新设置云服务器登录密码。 确保云服务器绑定弹性公网IP(仅SSH方式要求) SSH方式登录仅适用于Linux弹性云服务器。您可以使用远程登录工具登录弹性云服务器。此时,弹性云服务器需绑定弹性公网IP。例如使用PuTTY登录云服务器。 检查弹性云服务器已绑定弹性公网IP。 绑定弹性公网IP的详细操作请参考:为弹性云服务器绑定弹性公网IP。 检查弹性公网IP是否能ping通。 如果通过公网IP ssh,请参见“弹性公网IP ping不通?”进行检查。 如果通过私网IP ssh,请参考“同一个VPC内的两台弹性云服务器无法互通或者出现丢包等现象时,如何排查?”。 相关操作链接: 如果您使用外部镜像文件创建的弹性云服务器,且未安装密码重置插件,可以选择使用挂载磁盘的方式重置密码,详细操作请参见重置Linux云服务器密码(未安装重置密码插件)。 对于“密钥对”方式创建的Linux弹性云服务器: 首次登录时,请使用“SSH密钥方式”,详情请参见SSH密钥方式登录。 非首次登录时,如需使用控制台提供的“远程登录”功能(VNC方式),需先使用“SSH密钥方式”登录,并设置密码,然后才能使用VNC方式登录。 密钥对方式购买的弹性云服务器,使用私钥文件获取登录密码失败。 出现获取密码失败一般原因是Cloud-init注入密码失败。