云服务器内容精选

  • 基本概念 实体 实体是有可区别性且独立存在的某种事物。例如某一具体的电影(或人物或关系),如电影“霸王别姬”,可称作实体。 概念 概念指是抽象的、普遍的想法,是充当指明实体、事件或关系的范畴或类的实体。例如本体如图1所示,“film”、“people”可称作概念。 概念间关系 概念间关系是概念之间的相关联系。例如本体如图1所示,“film”、“people”两者之间的关系“actor”、“director”均可称作概念间关系。关系名称不能重复。 本体 本体是某个领域中抽象概念的集合,能够描述某个范围内一切事物的共有特征以及事物间的关系。例如图1可称作一个本体。 图1 本体
  • 示例 以创建一个有关于电影的 知识图谱 为例,抽取信息前后的实体信息如图2所示,展示如何在创建图谱时配置信息抽取。 图2 信息抽取 按配置数据源为待创建的图谱配置数据源。 按配置图谱本体为待创建的图谱选择本体。 在“创建图谱”页面,单击“信息抽取”,页面下方弹出“信息抽取”对话框。 在“信息抽取”对话框中,“抽取方式”选择“结构化抽取”,“编辑方式”选择“交互界面”。 关闭“默认抽取”开关。 在“信息抽取”对话框中填写信息抽取项,按表2填写。 表2 信息抽取项示例 数据类别 抽取项名称 抽取函数 Person identifier ${url} 中文名 regexp_replace(${中文名}, '\(\[link\]@.*?:(/film.*?)\)', '') 国籍 regexp_replace(${国籍}, '\(\[link\]@.*?:(/film.*?)\)', '') 职业 ${职业} 出生日期 ${出生日期} url ${url} Film identifier ${url} 中文名 ${中文名} 票房 ${票房} 上映时间 ${上映时间} 导演 regexp_extract_all(${导演}, '\(\[link\]@.*?:(/film.*?)\)', 1) 主演 regexp_extract_all(${主演}, '\(\[link\]@.*?:(/film.*?)\)', 1) url ${url} 示例中字段抽取函数主要有三类,示例如下: ${职业} 直接引用“职业”字段的值,不做任何操作。 regexp_replace(${国籍}, '\(\[link\]@.*?:(/film.*?)\)', '') 将“国籍”字段中符合正则模式的“\(\[link\]@.*?:(/film.*?)\)”替换成空字符串,即删除符合这个pattern的字符串。例如从字段“中国([link]@中国:/film.kg.huawei.com/中国/1122445)”抽取出信息“中国”。 regexp_extract_all(${导演}, '\(\[link\]@.*?:(/film.*?)\)', 1) 抽取出导演字段中,与模式 “\(\[link\]@.*?:(/film.*?)\)” 匹配的数据值,返回的类型是一个列表。例如“"导演":庄伟建([link]@庄伟建:/film.kg.huawei.com/庄伟建),苏万聪([link]@苏万聪:/film.kg.huawei.com/苏万聪)”,抽取信息后为“"导演":/film.kg.huawei.com/庄伟建,/film.kg.huawei.com/苏万聪”。 确认所填写的信息后,单击“保存”,完成信息抽取。
  • 操作步骤 在普通配置构建图谱页面,单击“信息抽取”,页面下方弹出“信息抽取”对话框,单击右侧按钮可以放大对话框。 在“信息抽取”对话框中,“抽取方式”选择“结构化抽取”,“编辑方式”选择“交互界面”。 在“交互界面”页签填写信息抽取前后的相关字段时,可单击“代码编辑”,切换至“代码编辑”页签,查看json代码。 图1 信息抽取 选择“默认抽取”开关。 图标说明开关处于开启状态。开启后,在每个数据类别中,为每个数据字段建立同名抽取项,抽取函数为${数据字段名}。 图标说明开关处于关闭状态,需要自定义填写信息抽取项。 在“信息抽取”对话框中填写信息抽取项: 每个表/文件中的数据需要设置一个唯一标识符identifier(可以抽取id/编号等可以唯一标识一条数据的内容)。例如,可以设置“url”为唯一标识符。 增加信息抽取项:单击“增加”,即可增加一项抽取信息类型。 删除信息抽取项:单击待删除的信息抽取项操作栏的“删除”,即可删除信息抽取项。 按表1填写“数据类别”,“抽取项名称”和“抽取函数”。 表1 信息抽取项属性说明 属性 说明 数据类别 基础数据中描述实体类型的字段。 抽取项名称 抽取信息后的属性字段。 抽取函数 抽取信息时所使用的引用字段的信息抽取函数,具体请见信息抽取函数。 确认所填写的信息后,单击“保存”,完成信息抽取。 如果创建多个数据源,请完成所有数据源的信息抽取配置。配置数据源请参见配置数据源。
  • 操作步骤 在图谱流水线配置页面,单击“信息抽取”,页面下方弹出“信息抽取”对话框,单击右侧按钮可以放大对话框。 图1 流水线配置页面 在“信息抽取”对话框中,“抽取方式”默认为“非结构化抽取”。 根据自身业务需要,您可以选择“公有库模型”、“预置模型”或者“用户自定义模型”,三者仅需选择一项。 “公有库模型”:当前提供“SimpleBertModel”和“RelationExtraction”两种公有库模型。 “预置模型”:当前提供“RESBM”和“RelationExtraction”两种预置模型。 “用户自定义模型”:您需提前在控制台自定义模型,详情请参见自定义信息抽取模型。 可在下方查看从文本信息中抽取的知识类型,知识类型包括主语“Subject_type”、谓语“Predicate”、宾语“Object_type”,即可查看到可抽取的主语、谓语、宾语组合。 图2 抽取模型 单击“保存”,完成信息抽取。 如果创建多个数据源,请完成所有数据源的信息抽取配置。配置数据源请参见配置数据源。
  • 操作步骤 在普通配置构建图谱页面,单击“数据源”,页面下方弹出数据源配置对话框,单击右侧按钮可以放大对话框。 图2 配置数据源 在数据源配置对话框,填写相关信息。 “选择数据格式”:构建图谱的数据源格式,包括“ CS V”、“XLSX”、“JSON”、“短文本”,详情请见数据格式要求。 “选择数据源文件”:单击,弹出“选择数据源文件”对话框,选择数据源存放在OBS的路径: “OBS桶”:选择数据源文件存放的OBS桶。确保OBS桶与KG服务在同一区域,桶的存储类别为“标准存储”。 “存储路径”:选择数据源文件存放在OBS桶的文件路径。 “为OBS桶授权”:如果OBS桶未授权,请勾选“确认授权”。 选择完成后,单击“确定”。 “实体类型字段”:当数据格式选择“JSON”时,在“实体类型字段”文本框中填写基础数据中描述实体类型的函数字段。 例如以一个有关于电影的图谱数据为例,选择数据格式和数据源文件后,下方可预览基础数据。 图3 数据源配置 填写完信息后,单击“保存”。 如果您待创建的图谱只需要一个数据源,那么您已完成数据源的配置。 如果您待创建的图谱需要输入多个数据源,请进入下一步。 单击“数据源”下方的“添加数据源”,添加新的数据源,按步骤1~3,配置新的数据源。
  • 知识融合 知识融合是指融合来自多个数据来源的关于同一个实体或概念的描述信息,对来自不同数据源的知识在统一规范下进行异构数据整合、消歧。 如图1所示的两条数据,这两条数据中的“元鲜”实际上是同一个人,因此需要对这两条数据进行融合。 图1 知识融合示例 知识融合过程请见图2,融合过程说明请见表1。 图2 知识融合 表1 知识融合说明 融合过程 过程说明 初步筛选 知识融合需要初步筛选与融合标识符相似的实体数据。 判断属性相似度 初步筛选与融合标识符相似的数据后,需要配置相似属性和相似度函数,并判断数据之间的属性相似度。 融合知识 对属性相似度均达到阈值条件的数据进行融合。 综上所述,在创建图谱的过程中,需要配置知识融合的融合标识符、待融合的实体、相似度函数和相似度阈值等参数,KG服务会根据所配置的参数进行知识融合。配置知识融合的详细步骤请见配置知识融合。
  • 定义三元组类型(schema) 为了训练自定义的信息抽取模型,需要定义该抽取模型能够抽取的三元组类型,并在训练数据中进行标注。 三元组是知识图谱构建的基本元组,三元组借鉴了语言学中主谓宾结构,语言学中一句话由主语(subject)、谓语(predicate)、宾语(object)组成,自然语言中的知识也可以建模为三个元素构成的组合格式,如“中国的首都是北京”这句话中,就有“中国-首都-北京”这样的三元组。 为了将三元组分类,我们定义三元组的类型由主语类型(subject type)、谓语(predicate)类型、宾语类型(object type),如上述三元组“中国-首都-北京”的类型是“国家-首都-城市”。通常我们将这些三元组类型组成的集合称为模型的schema。
  • 编辑概念 右键单击概念图标,选择“编辑”。 或双击概念图标。 左侧弹出概念编辑框。 在概念编辑框中,按表1编辑“概念名称”、“Icon”和“属性”。 图3 编辑概念 表1 编辑概念 参数 说明 概念名称 概念名称只能由大小写字母、数字、中文、下划线组成,长度为1-63位。 Icon 单击选择概念图标的颜色和样式,单击右侧的“更多”,可选择更多图标样式。 属性 编辑当前概念的属性。所有概念都默认有一个属性为“name”,且默认属性类型为“single_string”。 添加属性 单击“添加属性”可添加属性文本框,在文本框中填写属性的“名称”,选择“单值/多值”、“类型”、“操作”。 “名称”:属性名称只能由大小写字母、数字、中文、下划线组成,长度为1-63位。 “单值/多值”:选择当前属性是单值还是多值。 “类型”:选择属性的类型,“单值”可选类型有“single_string”、“single_int”、“single_double”、“single_bool”,“多值”可选类型有“set_string”、“set_int”、“set_double”。 填写完概念的属性后,单击“操作”列的,保存信息。 编辑属性 单击已有属性“操作”列的,可对属性的“名称”重新编辑,也可重新选择“单值/多值”、“类型”。 修改完属性后,单击“操作”列的,保存信息。 复制属性 单击已有属性“操作”列的,复制当前属性。 删除属性 单击已有属性“操作”列的,删除当前属性。 填完信息后,单击“保存”。
  • 功能区操作 创建本体界面右上角的功能区,可基于当前本体进行一系列操作。 图11 功能区 表2 功能区操作 图标 说明 保存当前界面的概念节点和关系曲线。 清空界面,即清空当前界面的概念节点和关系曲线。 导出当前界面的概念节点和关系曲线至OBS。导出前需要提前创建好OBS桶,详情请见OBS添加桶。 单击图标,在导出本体的对话框中填写“导出文件名”,选择“OBS桶”和“存储路径”,然后单击“确定”。 导出文件名 填写导出本体的文件名。 OBS桶 选择存放本体文件的OBS桶。需保证您的OBS桶与KG服务在同一区域,桶的存储类别为“标准存储”。 存储路径 选择存放本体文件的OBS路径。 从OBS导入本体。导入前将待导入的本体文件(json格式)上传至OBS中,详情请参见OBS添加桶和OBS上传文件或文件夹。 说明: 此处导入的本体会覆盖当前正在编辑的本体。 单击图标,在导入本体的对话框中选择“OBS桶”和“存储路径”,然后单击“确定”。 OBS桶 选择提前准备的本体文件存放的OBS桶。需保证您的OBS桶与KG服务在同一区域,桶的存储类别为“标准存储”。 存储路径 选择提前准备的本体文件存放在OBS桶中的路径。 单击图标可查看创建本体所有操作的快捷键。 单击图标放大本体。 单击图标缩小本体。 单击图标使本体以适配大小显示。 单击图标撤销上一个操作。 单击图标恢复上一个已撤销的操作。
  • 数据格式要求 XLSX文件 该类型为结构化数据输入格式。使用XLSX文件,即表格文件作为数据源时,文件必须为.xlsx格式,文件中每一个工作簿为一类数据,工作簿名为数据类型名。每个工作簿中,第一行为数据头,从第二行开始,每一行为一条数据。XLSX文件模板示例请单击下载。 CSV文件 该类型为结构化数据输入格式。使用CSV文件作为数据源时,首先需要把CSV文件上传至OBS的一个文件夹,构建图谱时,会读取该文件夹下所有以.csv为后缀的文件。每一个文件为一类数据,文件名(不包含.csv后缀)为数据类型名,文件编码需要为UTF-8 无BOM。每个文件中,第一行为数据头,从第二行开始,每一行为一条数据。CSV文件示例请单击下载。 多行JSON文件(JSON Lines) 该类型为结构化数据输入格式。文件中,每一行为一个完整的紧凑(单行)JSON字符串。文件编码格式需为UTF-8,文件名需以.json结尾,如“input.json”。文件内容如下所示。 {"entity_type": "Person", "中文名": "康时", "国籍": "中国", "职业": "演员", "出生日期": "1985年3月3日", "url": "/film.kg.huawei.com/康时/165882308"}{"entity_type": "Person", "中文名": "戴奇", "国籍": "韩国", "职业": "演员,歌手", "出生日期": "1987年6月22日", "url": "/film.kg.huawei.com/戴奇"} JSON数据样例请单击下载。 多行单句文本文件 该类型为非结构化输入格式。文件中,每一行为一个自然语言短句。文件编码格式需为UTF-8,文件名需以.txt结尾,如“input.txt”。 项羽,名籍 项羽是楚国武将 文昭甄皇后史称甄夫人 文昭甄皇后中山无极(今河北省无极县)人,上蔡令甄逸之女 文昭甄皇后魏文帝曹丕的妻子,魏明帝曹叡的生母 …….
  • 选择图谱规格 登录KG服务管理控制台,默认进入“我的图谱”页面。 单击,在创建图谱页面按表2填写信息。 图1 服务选型 表2 服务选型参数说明 参数 说明 “图谱名称” 待创建图谱的名称,名称只能由大小写字母、数字、中文、下划线组成,长度为1-63位。 “图谱规格” 待创建图谱的规格大小。当前仅支持在控制台选择“体验版 一万边”,如果根据业务需要,选择标准版 百万边、标准版 千万边、高级版 千万边,请通过官网产品页“服务咨询”联系我们进行咨询购买。 说明: 如果无法选择图谱规格,说明已创建过一次体验版图谱,且体验版图谱已过30天 免费体验 期限。请通过官网产品页“服务咨询”联系服务进行咨询购买。 “是否购买套餐包” 体验版图谱默认不能开通套餐包。如果需要选择业务版图谱,请通过官网产品页“服务咨询”联系我们进行咨询购买。 单击右下角“下一步”,在“版本确认”页签确认版本信息。 单击右下角“确认创建”。 页面提示“知识图谱创建任务提交成功”。单击“返回”,返回至“我的图谱”页面,您会看到新创建的图谱卡片,“运行状态”为“创建中”。 图2 图谱创建中 等待十几分钟后,运行状态变为“初始化”状态,您就可以开始构建图谱。
  • 图谱规格 体验版图谱 图谱规模为一万边,最多能支撑12000实体和12000关系,数据量超过会被裁剪。 当前KG服务仅支持在控制台创建一次体验版图谱,即创建一次体验版图谱后,无法第二次创建体验版图谱。 体验版创建后仅支持体验30天,30天后KG服务会将图谱冻结,后续会自动删除超过期限的体验版图谱。 标准版图谱 图谱规模为百万边和千万边,百万边最多支撑120万实体和120万关系,千万边最多支撑1200万实体和1200万关系,数据量超过会被裁剪。 当前KG服务不支持在控制台直接购买,需要通过官网产品页服务咨询联系我们进行咨询购买。 高级版图谱 图谱规模为千万边,最多支撑1200万实体和1200万关系,数据量超过会被裁剪。 当前KG服务不支持在控制台直接购买,需要通过官网产品页服务咨询联系我们进行咨询购买。
  • 发布元素链接 如果已创建的元素链接经过测试已满足业务要求,知识图谱支持发布元素链接,发布后元素链接将会在KBQA问答体验中生效。 登录KG服务管理控制台,默认进入“我的图谱”页面。 在“我的图谱”页面,单击已创建的图谱卡片,进入图谱详情页面。 单击知识图谱问答KBQA卡片下方的“问答配置”,默认进入“元素链接配置”页面。 单击右上角的“发布”,在对话框中单击“确定”。 完成元素链接发布。 图1 发布元素链接 父主题: 配置元素链接
  • 购买套餐包(可选) 购买套餐包之前,请通过官网产品页服务咨询联系我们进行咨询购买。 登录华为云控制台,单击左上角,选择“ 自然语言处理 -知识图谱 KG”,进入KG服务管理控制台。 默认进入“我的图谱”页签。 单击右上角的“购买套餐包”。 进入“购买套餐包”页面。 在“购买套餐包”页面,选择“图谱规格”和“购买时长”。 单击“下一步”,进入“订单确认”。 订单确认无误后,单击“下一步”,在支付页面完成付款,付款成功后即完成套餐包的购买。 购买套餐包后,选择图谱规格。 也可登录华为云官网,进入“费用中心”页面,在左侧导航栏选择“资源包(原我的套餐包)”,可查看已购买的知识图谱套餐包。
  • 配置元素链接(交互) 针对配置基本信息中选择的概念,对该概念以及概念属性、与该概念有关的关系进行链接配置。配置模式选择“交互”。 概念CONCEPT 元素名称:默认显示配置基本信息中选择的概念名称。 同义词:概念的同义词,比如概念“电影”的同义词可配置为“影片”、“片子”。 权重:匹配问答与配置元素的近似度时,该元素所占比例。例如问答“不止英雄影片的主演是谁”相似度计算时,本体“电影”所占比例大小。 实体实例权重:匹配问答与配置元素的近似度时,该元素对应实例所占比例。例如问答“不止英雄影片的主演是谁”相似度计算时,实体实例“不止英雄”所占比例大小。 图3 概念链接 概念属性CONCEPT_PROPERTY 元素名称:显示当前概念的所有属性,可切换任意一个属性对其进行链接配置。 同义词:属性的同义词,比如属性“上映日期”的同义词可配置为“播出”、“公映”、“首映”。 权重:匹配问答与配置元素的近似度时,该元素所占比例。例如问答“不止英雄影片是1月1日上映吗”相似度计算时,本体属性“上映日期”所占比例大小。 属性值权重:匹配问答与配置元素的近似度时,该元素对应实例所占比例。例如问答“不止英雄影片是1月1日上映吗”相似度计算时,属性实例“1月1日”所占比例大小。 图4 概念属性链接 概念间关系CONCEPT_RELATION 元素名称:显示当前概念发出的所有关系,可切换任意一个关系对其进行链接配置。 同义词:概念间关系的同义词,比如关系“主演”的同义词可配置为“演员”、“主要角色”。 权重:匹配问答与配置元素的近似度时,该元素所占比例。例如问答“不止英雄影片由谁主演”相似度计算时,本体关系“主演”所占比例大小。 图5 概念间关系链接