云服务器内容精选

  • 操作场景 安全云脑 支持一键接入WAF、HSS、OBS等多种华为云云产品的日志数据。接入后,可以统一管理日志信息,以及检索并分析所有收集到的日志。具体支持接入的云服务日志请参见支持接入的日志。 每个Region的首个工作空间可自动加载当前Region推荐接入的日志数据(未全部接入),无需手动处理。后续新增的用于自定义运营的工作空间,不会自动加载数据,需要用户自定义接入。 本章节介绍如何接入数据并查看日志存储位置。
  • 示例场景说明 本实践通过 DataArts Studio 服务的数据集成 CDM 组件、数据开发DLF组件和 数据仓库 服务(DWS)对电影评分原始数据进行分析,输出评分最高和最活跃Top10电影。您可以学习到数据集成模块的数据迁移和数据开发模块的脚本开发、作业开发、作业调度等功能,以及DWS SQL基本语法。 本入门示例涉及DataArts Studio数据集成、管理中心和数据开发模块,DataArts Studio各版本均可以满足使用要求。 操作流程如下: 准备工作,包括使用DataArts Studio前的准备、数据源准备、 数据湖 准备和认证数据准备。 创建数据迁移作业,将OBS数据迁移到DWS。 数据开发,包含创建DWS SQL脚本和开发作业。 创建DWS SQL脚本top_rating_movie(用于存放评分最高的Top10电影) 创建DWS SQL脚本top_active_movie(用于存放最活跃的Top10电影) 开发并调度作业,通过编排作业和配置作业调度策略,定期执行作业,使得用户可以每天获取到最新的Top10电影结果。 服务退订,如果不再使用DataArts Studio及相关服务,请及时进行退订和资源删除。 父主题: 初级版:基于DWS的电影评分数据集成与开发流程
  • 支持接入的日志 安全云脑支持集成WAF、HSS、OBS等多种华为云云产品的日志数据。集成后,可以检索并分析所有收集到的日志,且默认存储7天。 表1 支持接入的日志 安全分类 服务 服务类型 日志 日志描述 支持的region 主机安全 主机安全服务(HSS) 租户侧云服务 hss-alarm 主机安全告警 华北-北京四、华南-广州、华东-上海一、华北-北京一、华北-北京二、华东-乌兰察布一(汇聚在华北-北京一)、华东-上海二、华东-青岛、华南-深圳(汇聚在华南-广州-友好用户环境)、西南-贵阳一、华东二 hss-vul 主机 漏洞扫描 结果 hss-log 主机安全日志 hss-baseline 主机安全基线 华北-北京四、华南-广州、华东-上海一、华北-北京一、华北-北京二、华东-上海二、华东-青岛、西南-贵阳一、华东二 应用安全 Web应用防火墙 (WAF) 租户侧云服务 waf-attack WAF攻击日志 华北-北京四、华南-广州、华东-上海一、华北-北京一、华北-北京二、华东-乌兰察布一、华东-上海二(汇聚在华东-上海一)、华东-青岛、华南-深圳(汇聚在华南-广州)、西南-贵阳一、华东二 waf-access WAF访问日志 API网关(APIG) 租户侧云服务 apig-access APIG请求日志 华北-北京四、华南-广州、华东-上海一、华北-北京一 云审计 服务( CTS ) 租户侧云服务 cts-audit 云审计服务日志 华北-北京四、华南-广州、华东-上海一、华北-北京一、华北-北京二、华东-乌兰察布一、华东-上海二、华东-青岛、华南-深圳、西南-贵阳一、华东二 网络安全 NIP 华为设备 nip-attack IPS攻击日志 华北-北京四、华南-广州、华东-上海一、华北-北京二、华东-乌兰察布一、华东-上海二、华南-深圳、西南-贵阳一 亚太-新加坡、非洲-约翰内斯堡 DDoS 华为设备 ddos-attack DDoS攻击日志 华北-北京四、华南-广州、华东-上海一 云防火墙 (CFW) 租户侧云服务 cfw-block 访问控制日志 华北-北京四、华南-广州、华东-上海一、华北-北京二、华东-乌兰察布一、华东-上海二、华东-青岛、华南-深圳、西南-贵阳一、华东二 cfw-flow 流量日志 cfw-risk 攻击事件日志 运维安全 云堡垒机 (CBH) 租户侧云服务 cbh-audit 堡垒机 审计日志 华北-北京四、华南-广州、华东-上海一 数据安全 对象存储服务 (OBS) 租户侧云服务 obs-access 对象存储服务访问日志 华北-北京四、华南-广州、华东-乌兰察布一、华东-上海二 数据库安全服务(DBSS) 租户侧云服务 dbss-alarm DBSS告警日志 华北-北京四、华南-广州、华东-上海一、华北-北京二、华东-乌兰察布一、华南-深圳、西南-贵阳一、华东二 数据安全中心 (DSC) 租户侧云服务 dsc-alarm DSC告警日志 华北-北京四、华南-广州、华东-上海一、华北-北京一、华东-乌兰察布一、华东-上海二、华东-青岛、西南-贵阳一、华东二 身份安全 统一身份认证 服务( IAM ) 租户侧云服务 iam-audit 统一身份认证服务审计日志 华北-北京四、华南-广州、华东-上海一、华北-北京一、华东-乌兰察布一、华东-上海二 云安全 威胁检测服务 (MTD) 租户侧云服务 mtd-alarm MTD告警日志 华北-北京四、华南-广州、华东-上海一、华北-北京二、华东-乌兰察布一 安全云脑(SecMaster) 租户侧云服务 secmaster-baseline 安全云脑基线 华北-北京四、华南-广州、华东-上海一、华北-北京一、华北-北京二、华东-乌兰察布一、华东-上海二、华南-深圳、西南-贵阳一、华东二 父主题: 数据集成
  • 选择数据表 登录智能数据洞察控制台。 单击管理控制台左上角的,选择区域。 单击左下角的企业项目选择企业项目。 选择项目,单击项目名称进入项目。 在项目中选择数据源。 选择数据表,并单击操作列的“新建数据集”,跳转至数据集编辑页面。 选择数据表,双击或者拖拽页面数据表至画布。 单击数据预览区域的“刷新预览”,即可查看读取的数据表的数据。 单击数据表后的,选择需要呈现的表字段。 图1 字段选择 如需多表级联,可参考多表级联建模,关联其他数据表。 如需设置配置字段信息请参考配置数据表字段树、可视化字段配置(可选)。 字段配置完成后,单击页面右上方“保存”。 输入数据集名称,单击“确定”完成数据集创建。
  • 配置数据表字段树 打开数据表后支持预览数据表数据,并给出维度和度量字段,用于后续的数据分析。 您可以按需配置数据集字段信息包括:编辑、克隆隐藏、复制为指标、转化为维度/度量、默认聚合方式、数值展示格式、删除等操作。 预览数据表时只支持预览前100条数据,数据不足100条则显示全部数据。 当字段被用于计算字段、分组维度、过滤条件中,不支持修改字段类型、维度或度量转换、删除。 暂不支持复制日期字段,您可以将日期字段转成文本类型后,再复制字段。 配置字段的入口: 在字段列表区,单击字段后的配置字段。 在数据预览区,单击字段后的配置字段。 图2 配置字段 数据集列字段配置项说明如表1所示。 表1 配置项说明 功能名 说明 编辑 对字段的名称和描述内容进行编辑。 字段原名:可对字段原名进行编辑,输入不能为空,且名称只能由中英文、数字、英文括号、斜杠(/)、反斜杠(\)、下划线(_)及中划线(-)组成且不超过512个字符。 物理字段:物理表对应的字段名,不支持修改。 字段描述:补充字段描述信息。 绑定条件:当且仅当用户使用这个维度时,才会应用此维度的绑定条件。编辑条件请参见添加条件。 默认筛选:设置默认筛选器。编辑条件请参见添加条件。 默认过滤器规则:如果对某个字段配置了默认过滤器,如 省份 =“上海”。 如果报表或者问答中未出现关于省份字段的过滤器,则最终的过滤器条件会追加省份 =“上海”字段。 如果报表或者问答中出现了关于省份字段的过滤器,则最终的过滤器条件会忽略省份 =“上海”字段。 添加条件:单击“添加条件”。 选择筛选字段、筛选方式、固定值筛选条件和取值。 筛选字段:筛选需要设置规则的数据集的字段,支持筛选维度和度量字段,不支持多选,如需对其他字段配置规则请重复添加条件。 筛选方式:支持“条件筛选”、“枚举筛选”、“表达式筛选”。 说明: 只有维度支持枚举值筛选方式。 固定值条件:条件筛选时需要选择固定值条件,例如等于、不等于、大于、大于等于、小于、小于等于等规则。 固定值:输入筛选条件的取值,如果是枚举筛选,在下拉框中勾选字段值。 如需继续为其他字段设置规则,可单击“添加规则”。 多条件规则时,需要设置规则的关系: 且:用户可查看同时满足规则A和规则B的字段值、即规则A和规则B的交集。 或:用户可以查看满足规则A或规则B的字段值、即规则A和规则B的并集。 如需添加与规则A和规则B并列的规则,可以单击“添加关系”。即新建了规则组C。规则组C与规则A和规则B同一级别。 克隆 该功能用于快速复制某字段,生成的新字段会带上副本标识。 单击数据预览页面下需要修改字段右侧的,在弹出页面单击“克隆”。 单击克隆之后生成的新字段会带上副本标识。且字段的物理字段名不会发生变化字段原名会发生变化。 例如product_name,克隆后字段为product_name1。 隐藏 将字段进行隐藏。 隐藏字段后,使用这个数据集制作仪表板、大屏等时,不会出现这个字段。 默认聚合方式 包含无聚合、求和、平均值、计数、去重计数、最大值、最小值、总体标准差、样本标准差、总体方差、样本方差、区间起始值、区间结束值。 说明: 区间起始值、区间结束值只支持单项设置,不支持同时设置。 数值展示格式 无格式、数值、货币、对象量词、长度、重量、能量、容量、时间、百分比。 转换为度量/转换为维度 将字段的类型进行转换,支持维度和度量的相互转换。 维度类型转换 可将字段维度或度量的类型转换成其他类型,支持转换为数字、日期、文本。且日期字段支持配置数据格式。 说明: 日期增加了秒和毫秒的时间戳。 维度支持时间戳格式转换时间。 移动到 此功能在新建层次结构/数据集为表格视图时才可使用,请参见新建层次结构。 删除 删除字段。 删除字段后,当您需要找回该字段时,可以单击画布中的表,在右侧面板中选择并添加该字段即可。
  • 可视化字段配置(可选) DataArts Insight提供了数据集可视化配置功能,可视化操作更加便捷的配置数据集字段。 如果在字段树配置字段,可视化字段可不配置。 在数据集创建页面,单击“可视化配置”,进入可视化配置页面。 选择需要修改的字段,并按需编辑字段。 图3 可视化配置页面 表2 可视化配置参数说明 参数名称 说明 字段名称|物理字段 字段名称,在该页面支持自定义,字段名称会显示在仪表板和大屏制作的图表中。 物理字段不支持修改。 字段类型 字段支持的类型,包括日期、文本、数字。其中日期支持多种格式设置。 默认聚合 维度字段不支持设置,仅度量字段支持设置聚合方式。 支持以下设置:无聚合、求和、平均值、计数、去重计数、最大值、最小值、总体标准差、样本标准差、总体标方差、样本方差、区间起始值、区间结束值。 说明: 区间起始值、区间结束值只支持单项设置,不支持同时设置。 数值展示格式 无格式、数值、货币、对象量词、长度、重量、能量、容量、时间、百分比。 字段描述 对字段的相关信息的描述。 允许搜索 是否允许搜索枚举值,用于标记字段的枚举值在训练时是否允许被搜索,当前仅能提取最多1000个枚举值。 说明: 仅支持文本类型。 分析优先级 用于确定智能分析助手中的自动见解功能从数据集选用字段分析时的优先级,最多支持配置10个高分析优先级字段。 操作 支持对字段的删除和隐藏,此处可对已隐藏的字段进行取消隐藏。 说明: 删除数据集中的字段时要检查该字段是否在大屏、报表和权限配置中有使用。 批量字段配置:您可以同时选择多个字段,选择操作列的配置项。 当前支持批量转换为维度或度量,支持批量设置隐藏、取消隐藏,支持批量删除字段。
  • 产品功能 表/文件/整库迁移 支持批量迁移表或者文件,还支持同构/异构数据库之间整库迁移,一个作业即可迁移几百张表。 增量数据迁移 支持文件增量迁移、关系型数据库增量迁移、HBase/CloudTable增量迁移,以及使用Where条件配合时间变量函数实现增量数据迁移。 事务模式迁移 支持当CDM作业执行失败时,将数据回滚到作业开始之前的状态,自动清理目的表中的数据。 字段转换 支持去隐私、字符串操作、日期操作等常用字段的数据转换功能。 文件加密 在迁移文件到文件系统时,CDM支持对写入云端的文件进行加密。 MD5校验一致性 支持使用MD5校验,检查端到端文件的一致性,并输出校验结果。 脏数据归档 支持将迁移过程中处理失败的、被清洗过滤掉的、不符合字段转换或者不符合清洗规则的数据单独归档到脏数据日志中,便于用户查看。并支持设置脏数据比例阈值,来决定任务是否成功。
  • CDM迁移原理 用户使用CDM服务时,CDM管理系统在用户VPC中发放全托管的CDM实例。此实例仅提供控制台和Rest API访问权限,用户无法通过其他接口(如SSH)访问实例。这种方式保证了CDM用户间的隔离,避免数据泄漏,同时保证VPC内不同云服务间数据迁移时的传输安全。用户还可以使用VPN网络将本地数据中心的数据迁移到云服务,具有高度的安全性。 CDM数据迁移以抽取-写入模式进行。CDM首先从源端抽取数据然后将数据写入到目的端,数据访问操作均由CDM主动发起,对于数据源(如RDS数据源)支持SSL时,会使用SSL加密传输。迁移过程要求用户提供源端和目的端数据源的用户名和密码,这些信息将存储在CDM实例的数据库中。保护这些信息对于CDM安全至关重要。 图2 CDM迁移原理
  • 示例代码 查询数据集版本列表 from modelarts.session import Session from modelarts.dataset import Dataset session = Session() dataset = Dataset(session, dataset_id) version_list = dataset.list_versions() print(version_list) # 打印数据集的版本列表
  • 参数说明 表1 请求参数 参数 是否必选 参数类型 描述 session 是 Object 会话对象,初始化方法请参见Session鉴权。 dataset_type 否 Integer 根据数据集类型查询数据集列表,默认为空。可选值如下: 0:图像分类 1:物体检测 3: 图像分割 100:文本分类 101:命名实体 102:文本三元组 200:声音分类 201:语音内容 202:语音分割 400:表格数据集 600:视频标注 900:自由格式 dataset_name 否 String 模糊匹配数据集名称,默认为空。 offset 否 Integer 分页列表的起始页,默认为0。 limit 否 Integer 指定每一页返回的最大条目数,取值范围[1,100],默认为10。
  • 示例代码 示例一:查询数据集列表 from modelarts.session import Session from modelarts.dataset import Dataset session = Session() # 查询数据集列表 dataset_list = Dataset.list_datasets(session) print(dataset_list) # 打印出查询结果 示例二:根据数据集类型查询数据集列表 # 查询图像分类数据集 dataset_list = Dataset.list_datasets(session, dataset_type=0) print(dataset_list) 示例三:根据数据集名称查询数据集列表 # 查询名称中包含dataset的数据集列表 dataset_list = Dataset.list_datasets(session, dataset_name="dataset") print(dataset_list)
  • SOURCE_DATASET_FILE_DIR SOURCE_DATASET_FILE_DIR 为标注或通用存储生成数据集时的源数据索引json文件,示例: 标注: /tmp/dataset-temp/{versionId}/f7c9a054-3c9e-49c7-8934-a1e1d668eb12/result_frame.json Json文件内容示例: 通用存储: /tmp/data-warehouse/warehouse-dataset/ 注:通用存储可能存在多个索引json文件,需遍历。(file_attributes_1.json, file_attributes_2.json……) Json文件内容示例:
  • OCTPS_DATASET_DIR OCTPS_DATASET_DIR 为数据集源数据的数据路径,根据不同的数据来源,所挂路径不同, 示例: 本地:/tmp/dataset-temp/local_import/6f91947c-cd47-434b-b654-8332da961d7a/f7c9a054-3c9e-49c7-8934-a1e1d668eb12/ 标注:/tmp/label-data/ 数据仓库:/tmp/warehouse/ 生成子集,视图:/tmp/dataset-new/6f91947c-cd47-434b-b654-8332da961d7a/dataset/ OBS需通过用户桶的ak,sk依据OBS相关的sdk获取到用户所需筛选的源数据,示例: 图1 示例图1 图2 示例图2
  • TARGET_RESULT_DIR TARGET_RESULT_DIR 为存放筛选或者格式转换后数据的路径,本地路径示例: /tmp/temp-data/dataset/c8a73760-b5df-4f61-81d7-17e144fa6d69/result/data/ 对应OBS中raw桶路径为: temp-data/dataset/c8a73760-b5df-4f61-81d7-17e144fa6d69/result/data/
  • Octopus 目录 标注文件目录结构 +--- 1599625710056 | +--- 1599625710056.jpg | +--- 1599625710056.json +--- 1599625740054 | +--- 1599625740054.jpg | +--- 1599625740054.json 推理文件目录结构 +--- 1599625710056 | +--- 1599625710056.json +--- 1599625740054 | +--- 1599625740054.json