云服务器内容精选

  • 响应示例 状态码: 200 插件状态查询返回体 { "agent_status" : [ { "instance_id" : "111111111111", "uniagent_status" : "none", "extensions" : [ { "name" : "telescope", "status" : "none", "version" : "2.5.6" } ] } ] }
  • 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 agent_status Array of AgentStatusInfo objects agent插件状态列表 数组长度:1 - 2000 表5 AgentStatusInfo 参数 参数类型 描述 instance_id String 机器id 正则匹配:^[a-zA-Z0-9-]{1,64}$ uniagent_status String uniagent运行状态,none无,running运行中,silent静默中,unknown故障 枚举值: none running silent unknown extensions Array of ExtensionInfo objects 插件信息列表 数组长度:1 - 10 表6 ExtensionInfo 参数 参数类型 描述 name String 插件名称 最小长度:1 最大长度:64 status String 插件状态, none未安装,running运行中,stopped已停止,fault故障(进程异常),unknown故障(连接异常) 枚举值: none running stopped fault unknown version String 插件版本 最小长度:1 最大长度:32 状态码: 400 表7 响应Body参数 参数 参数类型 描述 error_code String 错误码 正则匹配:^(ces\.[0-9]{4})$ error_msg String 错误信息 最小长度:1 最大长度:256 状态码: 401 表8 响应Body参数 参数 参数类型 描述 error_code String 错误码 正则匹配:^(ces\.[0-9]{4})$ error_msg String 错误信息 最小长度:1 最大长度:256 状态码: 403 表9 响应Body参数 参数 参数类型 描述 error_code String 错误码 正则匹配:^(ces\.[0-9]{4})$ error_msg String 错误信息 最小长度:1 最大长度:256 状态码: 500 表10 响应Body参数 参数 参数类型 描述 error_code String 错误码 正则匹配:^(ces\.[0-9]{4})$ error_msg String 错误信息 最小长度:1 最大长度:256
  • 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 Content-Type 是 String 发送的实体的MIME类型。默认使用application/json; charset=UTF-8。 缺省值:application/json; charset=UTF-8 最小长度:1 最大长度:64 X-Auth-Token 是 String 用户Token。用户Token也就是调用获取用户Token接口的响应值,该接口是唯一不需要认证的接口。请求响应成功后在响应消息头中包含的“X-Subject-Token”的值即为Token值。 最小长度:1 最大长度:16384 表3 请求Body参数 参数 是否必选 参数类型 描述 instance_ids 是 Array of strings 机器实例id列表 数组长度:1 - 2000 uniagent_status 否 String uniagent运行状态,不传查所有状态,none无,running运行中,silent静默中,unknown故障 枚举值: none running silent unknown extension_name 否 String 插件名称,不传查所有插件,目前仅支持telescope 枚举值: telescope extension_status 否 String 插件状态,不传查所有状态, none未安装,running运行中,stopped已停止,fault故障(进程异常),unknown故障(连接异常) 枚举值: none running stopped fault unknown
  • 响应消息 表3 响应参数 参数 参数类型 描述 addons Arrays of objects 插件版本信息,请参考表4。 表4 addons 参数 参数类型 描述 name String 插件名称。 sermantInjector:Sermant Injector插件。用于自动挂载Sermant Agent,通过Sermant Agent接入未开启安全认证的ServiceComb引擎。无需修改应用代码即可接入引擎并使用应用注册发现、全链路灰度发布、优雅上下线、标签路由等功能,但是不支持使用微服务治理功能。 latest_version String 插件最新版本。
  • 约束与限制 下载的驱动必须是后缀为“.run”的文件。 仅支持Nvidia Tesla驱动,不支持GRID驱动。 安装或重装插件时,需要保证驱动下载链接正确且可正常访问,插件对链接有效性不做额外校验。 gpu-device-plugin插件仅提供驱动的下载及安装脚本执行功能,插件的状态仅代表插件本身功能正常,与驱动是否安装成功无关。 如您使用A100/A800的多GPU卡机型,您需要手动安装与版本驱动对应的nvidia-fabricmanager服务才可以正常使用,详情请参见安装nvidia-fabricmanager服务。
  • 安装nvidia-fabricmanager服务 A100/A800 GPU支持 NvLink & NvSwitch,若您使用多GPU卡的机型,需额外安装与驱动版本对应的nvidia-fabricmanager服务使GPU卡间能够互联,否则可能无法正常使用GPU实例。 本文以驱动版本470.103.01为例,您可参考以下步骤进行安装,请根据实际情况需要替换驱动版本。 登录需要安装nvidia-fabricmanager服务的GPU节点,该节点需绑定EIP用以下载nvidia-fabricmanager服务。 安装与驱动版本对应的nvidia-fabricmanager服务,您可通过官方下载操作系统和驱动版本对应的安装包。 CentOS操作系统 以CentOS 7为例: driver_version=470.103.01 wget https://developer.download.nvidia.cn/compute/cuda/repos/rhel7/x86_64/cuda-drivers-fabricmanager-${driver_version}-1.x86_64.rpm rpm -ivh nvidia-fabric-manager-${driver_version}-1.x86_64.rpm Ubuntu等其他操作系统 以Ubuntu 18.04为例: driver_version=470.103.01 driver_version_main=$(echo $driver_version | awk -F '.' '{print $1}') wget https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu1804/x86_64/nvidia-fabricmanager-${driver_version_main}_${driver_version}-1_amd64.deb dpkg -i nvidia-fabricmanager-${driver_version_main}_${driver_version}-1_amd64.deb 启动nvidia-fabricmanager服务。 systemctl enable nvidia-fabricmanager systemctl start nvidia-fabricmanager 查看nvidia-fabricmanager服务状态。 systemctl status nvidia-fabricmanager
  • 获取驱动链接-公网地址 登录CCE控制台。 创建节点,在节点规格处选择要创建的GPU节点,选中后下方显示的信息中可以看到节点的GPU显卡型号。 登录到nvidia网站。 如图2所示,在“NVIDIA驱动程序下载”框内选择对应的驱动信息。其中“操作系统”必须选Linux 64-bit。 图2 参数选择 驱动信息确认完毕,单击“搜索”按钮,会跳转到驱动信息展示页面,该页面会显示驱动的版本信息如图3,单击“下载”到下载页面。 图3 驱动信息 获取驱动软件链接方式分两种: 方式一:如图4,在浏览器的链接中找到url=/tesla/470.103.01/NVIDIA-Linux-x86_64-470.103.01.run的路径,补齐全路径为https://us.download.nvidia.com/tesla/470.103.01/NVIDIA-Linux-x86_64-470.103.01.run,该方式节点需要绑定EIP 。 方式二:如图4,单击“下载”按钮下载驱动,然后上传到OBS,获取软件的链接,该方式节点不需要绑定EIP。 图4 获取链接
  • 安装插件 登录U CS 控制台,单击集群名称进入集群,在左侧导航栏中选择“插件中心”。 在“可安装插件”中找到gpu-device-plugin,单击“安装”。 在安装插件页面,填写插件配置。 插件规格:可配置“默认”或“自定义”规格,请根据实际情况选择。 容器:选择“自定义”规格时支持设置。 Nvidia驱动:您可使用CCE提供的驱动地址或手动填写自定义Nvidia驱动的地址,集群下全部GPU节点将使用相同的驱动。 GPU虚拟化功能仅支持470.57.02、470.103.01、470.141.03、510.39.01、510.47.03版本的GPU驱动。 建议您使用CCE提供的驱动地址,以满足驱动版本的要求。 如果下载链接为公网地址,例如地址为nvidia官网地址https://us.download.nvidia.com/tesla/470.103.01/NVIDIA-Linux-x86_64-470.103.01.run,则各GPU节点均需要绑定EIP。获取驱动链接方法请参考获取驱动链接-公网地址。 若下载链接为OBS上的链接,无需绑定EIP 。获取驱动链接方法请参考获取驱动链接-OBS地址。 请确保Nvidia驱动版本与GPU节点适配。 更改驱动版本后,需要重启节点才能生效。 对于linux 5.x内核系统,如华为云欧拉操作系统 2.0或ubuntu 22.04,建议使用470及以上版本驱动。 图1 安装gpu-device-plugin 驱动选择:若您不希望集群中的所有GPU节点使用相同的驱动,CCE支持以节点池为单位安装不同的GPU驱动。 插件将根据节点池指定的驱动版本进行安装,仅对节点池新建节点生效。 新建节点更新驱动版本后,需重启节点生效。非新建节点不支持更新驱动版本。 插件卸载会自动删除已安装的GPU驱动。 GPU虚拟化:选择开启GPU虚拟化,支持GPU单卡的算力、显存分割与隔离。 若集群中未安装volcano插件,将不支持开启GPU虚拟化,您可单击“一键安装”进行安装。如需配置volcano插件参数,请单击“自定义安装”,详情请参见volcano。 若集群中已安装volcano插件,但插件版本不支持使用GPU虚拟化,您可单击“一键升级”进行升级。如需配置volcano插件参数,请单击“自定义升级”,详情请参见volcano。 单击“安装”,安装gpu-device-plugin插件的任务即可提交成功。
  • 批量设置多个接入配置 支持同时批量设置多个接入配置,操作简单,不用重复配置即可快速完成多个场景的接入配置 在“接入管理”页面,单击“批量接入”,进入配置详情页面,请参考表6。 表6 批量接入设置 类型 操作 说明 基本配置 接入类型 选择云容器引擎 CCE-应用日志。 接入配置数量 在输入框填写接入配置数量,单击“添加接入配置”。 在接入配置下方默认已有1个接入配置,最多支持再添加99个数量,因此支持同时添加100个接入配置。 接入配置 接入列表 左侧显示接入配置的信息,最多支持添加99个配置。 右侧显示配置接入的内容,详细请参考步骤4:采集配置进行设置。 一个接入配置设置完成后,单击“应用于其他接入规则”即可将该接入配置复制到其他接入配置。 单击“参数检查”,检查成功后,单击“提交”,批量接入设置完成。 例如添加了4个接入配置,批量创建成功后,在接入规则页签下方,就会显示4条接入配置数量。 (可选)支持对接入配置任务进行以下操作: 勾选多个已创建成功的接入配置,单击“批量编辑”进入配置详情页面,通过选择不同接入类型,修改对应的接入配置信息。 勾选多个已创建成功的接入配置,单击开启或关闭按钮。接入配置状态关闭后不会继续采集日志。 勾选多个已创建成功的接入配置,单击删除按钮即可批量删除接入配置。
  • 步骤6:完成接入配置 在接入规则页签,则会生成一条接入配置信息。 单击接入配置名称可进入详情页面,查看该接入配置详细信息。 单击接入配置操作列的“编辑”重新修改接入配置信息。 单击接入配置操作列的“标签管理”即可添加标签。 单击接入配置操作列的“复制”复制一条新的接入配置信息。 单击接入配置操作列的“删除”即可删除接入配置信息。 单击接入配置操作列的“采集诊断”,可查看ICAgent异常监控、ICAgent整体状态和ICAgent采集监控。
  • 使用限制 支持容器引擎为Docker的CCE集群节点。详情请查看云容器引擎(CCE)。 支持使用Containerd作为容器引擎的CCE集群节点(ICAgent 5.12.130及以上版本)。 支持 CCE Turbo 集群(ICAgent 5.12.130及以上版本)。 容器内的日志目录如果已挂载到主机目录上,将无法通过配置容器文件路径方式采集到LTS,只能通过配置节点文件路径方式采集到LTS。 Docker存储驱动限制:容器文件日志采集目前仅支持overlay2存储驱动,不支持devicemapper作为存储驱动的节点。查看存储驱动类型,请使用如下命令: docker info | grep "Storage Driver" 如果选择日志流时,采集方式为采集到集中日志流时,则必须已创建CCE集群。
  • 前提条件 CCE集群已安装ICAgent并且已创建相关节点自定义标识的主机组(如果不满足,配置CCE接入LTS时会自动检查修复)。 首次使用 AOM 2.0的用户,请参考开通AOM2.0授权使用AOM2.0,进入AOM2.0控制台后,请参考云服务授权授予 云日志 服务 (LTS)、云容器引擎 (CCE)等云服务数据的访问权限。 在“主机”页面,选择“CCE集群”,在搜索框选择目标集群,单击“升级ICAgent”,详细操作请参考升级ICAgent。 已关闭采集容器标准输出到AOM的开关。 开启“ICAgent诊断开关”用于查看ICAgent异常监控、ICAgent整体状态和ICAgent采集监控,请参考设置ICAgent日志采集开关。
  • 注意事项 plpgsql为内置插件,不允许卸载。 decoderbufs, wal2json等逻辑复制插件可以直接使用,不需要安装。 部分插件依赖“shared_preload_libraries”参数,只有在加载相关库之后,才能安装成功。 pg_cron插件当前仅支持PostgreSQL 12(12.11.0及其以上版本)、PostgreSQL 13及以上版本。使用时需要先修改参数“cron.database_name”为需要使用的数据库(仅支持单个数据库),同时修改“cron.use_background_workers”为“on”。 pltcl插件在PostgreSQL 13.2版本实例暂不支持使用,如需使用该插件,请先升级到最新小版本。 部分插件安装或卸载时,会同步安装或卸载其依赖插件,以及相关依赖表。例如:创建插件postgis_sfcgal时,需要先创建postgis插件,这时会同步创建postgis_sfcgal插件;同时,卸载postgis插件时,会同步卸载postgis_sfcgal插件。 部分插件在小版本升级后不支持直接升级,如需升级请卸载后重新安装。
  • SQL审计功能验证 执行sql语句。 create table t1 (id int); insert into t1 values (1); select * from t1; id ---- 1 (1 rows) 在界面上通过“SQL审计”页签进行审计日志下载。 审计日志包含以下内容: AUDIT: OBJECT,1,1,READ,SELECT,TABLE,public.t1,select * from t1; AUDIT:表示这是一个审计日志条目。 OBJECT:表示这是一个对象级别的审计日志。 第一个1:表示对象的 ID。 第二个1:表示对象的子 ID。 READ:表示这是一个读取操作。 SELECT:表示这是一个 SELECT 查询。 TABLE:表示对象类型是表。 public.t1:表示表的名称和模式。 select * from t1:表示执行的 SQL 查询语句。
  • 支持版本说明 PostgreSQL 12及以上版本的最新小版本支持该插件。可通过以下SQL语句查询当前实例是否支持该插件: SELECT * FROM pg_available_extension_versions WHERE name = 'pgaudit'; 如果不支持,可通过升级内核小版本或者使用转储与还原升级大版本使用该插件。 RDS PostgreSQ L实例 支持的插件,具体请参见支持的插件列表。