云服务器内容精选

  • 时间过滤 参数位置:在创建表/文件迁移作业时,如果源端数据源为文件类型,那么源端作业配置下的高级属性中,“时间过滤”参数选择“是”。 参数原理:“起始时间”和“终止时间”参数中输入时间值后,只有修改时间介于起始时间和终止时间之间(时间区间为左闭右开,即等于起始时间也在区间之内)的文件才会被 CDM 迁移。 配置样例: 例如需要CDM只同步2021年1月1日~2022年1月1日生成的文件到目的端,则参数配置如下: 时间过滤器:选择为“是”。 起始时间:配置为2021-01-01 00:00:00(格式要求为yyyy-MM-dd HH:mm:ss)。 终止时间:配置为2022-01-01 00:00:00(格式要求为yyyy-MM-dd HH:mm:ss)。 图2 时间过滤 这样CDM作业就只迁移2021年1月1日~2022年1月1日时间段内生成的文件,下次作业再启动时就可以实现增量同步。
  • 文件/路径过滤器 参数位置:在创建表/文件迁移作业时,如果源端数据源为文件类型,那么源端作业参数的高级属性中可以看到“过滤类型”参数,该参数可选择:通配符或正则表达式。 参数原理:“过滤类型”选择“通配符”时,CDM就可以通过用户配置的通配符过滤文件或路径,CDM只迁移满足指定条件的文件或路径。 配置样例: 例如源端文件名带有时间字段“2017-10-15 20:25:26”,这个时刻生成的文件为“/opt/data/file_20171015202526.data”,则在创建作业时,参数配置如下: 过滤类型:选择“通配符”。 文件过滤器:配置为“*${dateformat(yyyyMMdd,-1,DAY)}*”(这是CDM支持的日期宏变量格式,详见时间宏变量使用解析)。 图1 文件过滤 配置作业定时自动执行,“重复周期”为1天。 这样每天就可以把昨天生成的文件都导入到目的端目录,实现增量同步。 文件增量迁移场景下,“路径过滤器”的使用方法同“文件过滤器”一样,需要路径名称里带有时间字段,这样可以定期增量同步指定目录下的所有文件。
  • 基于物品相似度的实时召回 基于物品相似度的实时召回策略是根据用户短时间内行为数据(如购买,收藏,内容评论或分享),通过牛顿冷却定律对相关行为的初始权重进行衰减和汇总,从而找出用户该时间段内感兴趣的物品,结合物品的相似度信息进行关联推荐。 表10 基于物品相似度的实时召回参数说明 参数名称 说明 名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 策略的具体描述。 依赖作业名称 已经完成的可以提供物品和物品相似度关系的作业,用来进行物品的关联推荐。 topK 用户最感兴趣的排序在前K个的物品。 行为 行为类型:用户感兴趣的行为类型。 权重值:行为的初始权重。 衰减系数:用于衰减行为初始权重的系数。 有效时间:用户配置的行为发生时间与当前时间的间隔,以小时为单位。系统只处理在该时间范围内的行为记录。
  • 基于用户相似度的实时召回 基于用户相似度的实时召回策略是根据用户间的相似度信息,找到相似用户短时间内行为数据(如购买,收藏,内容评论或分享),通过牛顿冷却定律对相关行为的初始权重进行衰减和汇总,从而找出相似用户该时间段内感兴趣的物品,加权汇总后推荐给该用户。 表11 基于用户相似度的实时召回参数说明 参数名称 说明 名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 策略的具体描述。 依赖作业名称 已经完成的可以提供用户和用户相似度关系的作业,用来进行用户的关联推荐。 topK 用户最感兴趣的排序在前K个的物品。 行为 行为类型:用户感兴趣的行为类型。 权重值:行为的初始权重。 衰减系数:用于衰减行为初始权重的系数。 有效时间:用户配置的行为发生时间与当前时间的间隔,以小时为单位。系统只处理在该时间范围内的行为记录。
  • 基于UCB的召回策略 基于UCB的召回策略综合考虑了用户操作行为表中,物品发生的某几种行为类型及次数,然后给每一个物品都计算一个得分,最终返回得分最高的若干个物品。 表8 基于UCB的召回策略参数说明 参数名称 说明 名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 策略的具体描述。 最小行为次数 在物品上产生过行为的最小用户数,其中一个用户在一个物品上只计算一次行为。默认为30。 折中参数 令alpha为Exploration 和 Exploitation之间的折中参数,其取值范围为[0,1],alpha越趋近于0,则物品的得分对历史得分高的物品越有利,即 Exploitation。反之,alpha越趋近于1,则物品的得分越倾向于探索新物品,即Exploration。默认为0.5。 最大推荐结果数 最多生成多少个推荐结果。默认为100。 该参数会运用在“输出数据”的推荐候选集上。 时间跨度(天) 用于指定从数据源中取最近多少天的行为数据计算热度。默认取全部数据。 开启调度 开启调度,按照指定的调度策略定期执行作业。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。
  • 基于特征匹配的召回策略 基于特征匹配的召回策略会用用户画像和物品画像的相关属性进行匹配,为用户召回属性匹配程度高的若干个物品。 表7 基于特性匹配的召回策略参数说明 参数名称 说明 名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 策略的具体描述。 匹配类型 通过匹配数据的特征,生成推荐候选集。 例如,通过用户匹配物品生成给用户推荐物品的候选集,物品自匹配生成给物品推荐物品的候选集。可选: 用户匹配物品 物品自匹配 匹配特征对 用户和物品相关联特征。请根据实际情况配置参数,如果属性匹配特征对相似度较高内存不够时需提升配置。 用户特征名:字符串,长度1-20。 物品特征名:字符串,长度1-20。 权重值:权重影响不同物品属性匹配的程度,取值0.01-1,2位小数。 匹配个数度量:如果开启匹配个数度量, 同个特征匹配个数多的数据有优势。例如博客标签中,匹配5个标签(tags)比匹配1个标签(tags)更相关。如果不开启, 多值特征匹配时,匹配特征个数无关,都被视为匹配。 操作:可以单击操作列下面的进行删除某个匹配特征对。 您可以单击进入“添加匹配特征对”页面进行配置。设置特征对的用户特征名、物品特征名和权重。 最近邻域数 机器学习中的概念, 例如协同过滤计算中,需要计算物品之间,用户之间的相似度。最近邻域数是x,就是一个物品/用户找出x个和他相似的物品/用户。默认为100。 最大推荐结果数 最多生成多少个推荐结果。默认为100。 开启调度 开启调度,按照指定的调度策略定期执行作业。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。
  • 基于交替最小二乘的矩阵分解推荐 基于交替最小二乘的矩阵分解推荐:基于用户-物品的行为信息作为原始矩阵,利用ALS优化算法对原始矩阵进行矩阵分解,分解之后的用户隐向量矩阵和物品隐向量矩阵可以用来生成预估的新的用户-物品评分矩阵,提取出评分最高的若干个物品作为召回结果。 表4 基于交替最小二乘的矩阵分解推荐参数说明 参数名称 说明 名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 策略的具体描述。 隐向量维度 在ALS算法中使用,指定用户隐向量、物品隐向量的隐含因子的维度大小。如果离线计算失败,建议调小至10以下。默认为10。 迭代次数 指定迭代优化的最大迭代次数。如果离线计算失败,建议调小至10以下。默认为10。 优化正则化系数 在ALS算法中使用,指定正则化系数,作为优化目标中参数项代价的系数,用于避免过拟合现象发生。默认为0.01。 最大推荐结果数 最多生成多少个推荐结果。默认为100。 开启调度 开启调度,按照指定的调度策略定期执行作业。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。
  • 业务规则-基于历史行为记忆生成候选集 业务规则-基于历史行为记忆生成候选集可以从用户历史行为数据中筛选出发生过某些行为的物品(例如,筛选出曾经点击过5次的物品)。此策略适用于“看了又看”,“买了又买”等推荐场景。 表5 业务规则-基于历史行为记忆生成候选集参数说明 参数名称 说明 名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 策略的具体描述。 频次 “相对时间间隔”:指定历史行为时间段,选取数据中每个用户最靠后的行为数据的时间往前N天的行为数据计算用户偏好。建议至少设置30天。 “绝对时间间隔”:指定历史行为时间段,选取数据中每个用户距离现在时间往前N天的行为数据计算用户偏好。建议至少设置30天。 “行为类型”:指定行为类型。 “最小次数”:行为次数下界,高于此的物品才会被选中。默认为1。 “最大次数”:行为次数上界,低于此的物品才会被选中。 单击,增加频次。你可以单击右侧的删除该频次。 最大推荐结果数 最多生成多少个推荐结果。默认为100。 开启调度 开启调度,按照指定的调度策略定期执行作业。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。
  • 业务规则-人工导入 业务规则-人工导入是指用户自定义物品列表,并将此列表作为候选集,以供在线服务调用。 表6 业务规则-人工导入参数说明 参数名称 说明 名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 策略的具体描述。 OBS地址 用户可从此OBS地址中选择自定义物品列表的csv文件。单击,从弹出的对话框中,选择数据存储的OBS桶及其文件夹。 导入候选集类型 选择导入候选集类型,目前支持以下三种。 物品-分数候选集:物品-分数候选集可以用于在线服务的推荐候选集。 用户相似度候选集:用户相似度候选集可用于实时召回。 物品相似度候选集:物品相似度候选集可用于实时召回与在线服务的推荐候选集。 最大推荐结果数 最多生成多少个推荐结果。默认为100。 开启调度 开启调度,按照指定的调度策略定期执行作业。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。 数据格式(.csv文件): itemId1 itemId2 itemId为物品id,算法将物品列表上传的物品作为候选集 用户可从OBS中选择保存有人工编辑推荐结果的列表(即物品ID)。
  • 基于物品的协同过滤推荐 基于物品的协同过滤推荐采用经典推荐算法基于物品的协同过滤ItemCF进行召回。 表2 基于物品的协同过滤推荐参数说明 参数名称 说明 名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 策略的具体描述。 最近邻域数 在ItemCF算法中使用,生成的相似度矩阵中为每个物品保留的若干个最相似物品。默认100。 用户活跃度 用来过滤用户的活跃度阈值。 取值范围:1-10000。 默认值:1。 效用阈值 用户对物品综合打分的阈值。 取值范围:0.000001-10。 最小交叉度 物品和物品之间被同一用户行为记录的数量,计算相似度时,过滤掉共同记录小于最小交叉度的item。 默认值:1。 最大推荐结果数 最多生成多少个推荐结果。 默认值:100。 开启时间跨度 不开启取全部数据,开启则指定从数据源中取最近天数的行为数据计算相似度。 时间跨度(天) 用于指定从数据源中取最近多少天的行为数据计算相似度。默认取全部数据。 上传物品相似度 支持客户通过obs导入自定义的相似度信息。相似度文件格式为json, 其中subject为用户或物品, relations为与subject相似的用户或物品及其相似度。例如, { "subject": "item108", "relations": [ { "id": "item115", "score": 0.699357793663589 }, { "id": "item60", "score": 0.659905609639582 }, { "id": "item61", "score": 0.640305447750641 }, { "id": "item18", "score": 0.614275316537666 } ] } 开启调度 开启调度,按照指定的调度策略定期执行作业。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。
  • 基于用户的协同过滤推荐 基于用户的协同过滤推荐采用经典算法基于用户的协同过滤(UserCF)进行召回。基于用户的协同过滤算法是通过用户的历史行为数据发现用户对物品的喜欢(如购买,收藏,内容评论或分享),并对这些喜好进行度量和打分。根据不同用户对相同物品的态度和偏好程度计算用户之间的关系。在有相同喜好的用户间进行物品推荐。 例如,A、B两个用户都购买了abc三本图书,并且给出了5星的好评。则A和B属于同一类用户。可以将A看过的图书d也推荐给用户B。 表3 基于用户的协同过滤推荐参数说明 参数名称 说明 名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 策略的具体描述。 最近邻域数 在UserCF算法中使用,生成的相似度矩阵中为每个用户保留的若干个最相似用户。默认为100。 最小交叉度 物品和物品之间被同一用户行为记录的数量,计算相似度时,过滤掉共同记录小于最小交叉度的item。 默认值:1。 物品活跃度 物品过滤用户的活跃度阈值。 取值范围:1-10000。 默认值:1。 效用阈值 用户对物品综合打分的阈值。 取值范围:0.000001-10。 最大推荐结果数 最多生成多少个推荐结果。 默认值:100。 开启时间跨度 不开启取全部数据,开启则指定从数据源中取最近天数的行为数据计算相似度。 时间跨度 用于指定从数据源中取最近多少天的行为数据计算相似度。默认取全部数据。 上传物品相似度 支持客户通过obs导入自定义的相似度信息。相似度文件格式为json, 其中subject为用户或物品, relations为与subject相似的用户或物品及其相似度。例如, { "subject": "item108", "relations": [ { "id": "item115", "score": 0.699357793663589 }, { "id": "item60", "score": 0.659905609639582 }, { "id": "item61", "score": 0.640305447750641 }, { "id": "item18", "score": 0.614275316537666 } ] } 开启调度 开启调度,按照指定的调度策略定期执行作业。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。
  • 基于综合行为热度推荐 基于综合行为热度推荐统计用户对物品所有行为的加权热度。如果选择用户分群,将生成每个分组的热度推荐;如果不选择,将生成全局热度推荐。 表1 基于综合行为热度推参数说明 参数名称 说明 名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 策略的具体描述。 行为次数统计方法 物品记录统计方式。 “pv”:page view,每个用户可对同个物品产生多条记录。 “uv”:unique visitor,每个用户只能对每个物品产生一条记录, 算法只保留权重最大的记录。 用户分群 数据源类型包括用户特征和物品特征,根据数据源筛选数据, 选出需要的属性。只能选择进行用户分组还是物品分组,分组内可配置多个特征。 “用户特征”:在用户特征下拉框中选择需要的特征参数进行召回计算。例" user_meta_list ": ["gender","age"] “物品特征”:在物品户特征下拉框中选择需要的特征参数进行召回计算。例" item_meta_list ": ["weight","score"] 最大推荐结果数 每个用户最多生成多少个推荐结果。 开启时间跨度 不开启取全部数据,开启则指定从数据源中取最近天数或小时数的行为数据计算相似度。 时间单位 开启时间跨度后,支持按照天或者小时为单位从指定从数据源中取行为数据计算相似度。 时间跨度 用于指定从数据源中取最近多少天或者多少小时的行为数据计算热度。默认取全部数据。 开启调度 开启调度,按照指定的调度策略定期执行作业。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。
  • 评分方案介绍 Octopus评测指标共有30多项大类指标,当规控算法未通过某些评测指标后,评测分数应能反映算法的性能表现。 本设计根据指标的重要程度将其分为三大类: 主要指标(以下简称A类)。 次要指标(以下简称B类)。 未定义重要度指标(以下简称C类)。 本设计提供如下三种内置的评分方案: AB类log函数评分。 AB类均匀权重评分。 C类均匀权重评分。 接下来对三种评分方案进行详细介绍。 父主题: 评测分数计算介绍
  • 运算符 运算符与条件键、条件值一起构成完整的条件判断语句,当请求信息满足该条件时,策略才能生效。运算符可以增加后缀“IfExists”,表示对应请求值为空或满足条件的请求值均使策略生效,如“StringEqualsIfExists”表示请求值为空或请求值等于条件值均使策略生效。运算符为字符串型运算符,表格中如未增加说明,不区分大小写。 String类型 表3 String类型运算符 类型 运算符 说明 String StringEquals 请求值与任意一个条件值相同(区分大小写)。 StringNotEquals 请求值与所有条件值都不同(区分大小写)。 StringEqualsIgnoreCase 请求值与任意一个条件值相同。 StringNotEqualsIgnoreCase 请求值与所有条件值都不同。 StringMatch 请求值符合任意一个条件值的正则表达式(区分大小写,正则表达式仅支持*和?)。 StringNotMatch 请求值不符合所有条件值的正则表达式(区分大小写,正则表达式仅支持*和?)。 示例:禁止用户名为ZhangSan的请求者删除和修改资源共享实例。 { "Version": "5.0", "Statement": [ { "Effect": "Deny", "Action": [ "ram:resourceShares:delete", "ram:resourceShares:update" ], "Condition": { "StringEquals": { "g:DomainName": [ "ZhangSan" ] } } } ] } Number类型 表4 Number类型运算符 类型 运算符 说明 Number NumberEquals 请求值等于任意一个条件值。 NumberNotEquals 请求值不等于所有条件值。 NumberLessThan 请求值小于任意一个条件值。 NumberLessThanEquals 请求值小于或等于任意一个条件值。 NumberGreaterThan 请求值大于任意一个条件值。 NumberGreaterThanEquals 请求值大于或等于任意一个条件值。 Date类型 表5 Date类型运算符 类型 运算符 说明 Date DateLessThan 请求值早于任意一个条件值。 DateLessThanEquals 请求值早于或等于任意一个条件值。 DateGreaterThan 请求值晚于任意一个条件值。 DateGreaterThanEquals 请求值晚于或等于任意一个条件值。 示例:请求者禁止在2022年8月1日前访问 RAM 服务。 { "Version": "5.0", "Statement": [ { "Effect": "Deny", "Action": [ "ram:*:*" ], "Condition": { "DateLessThan": { "g:CurrentTime": [ "2022-08-01T00:00:00Z" ] } } } ] } Bool类型 表6 Bool类型运算符 类型 运算符 说明 Bool Bool 条件值可选值:true、false。请求值等于条件值。 Null类型 表7 Null类型运算符 类型 运算符 说明 Null Null 条件值可选值:true、false。条件值为true,要求请求值不存在或者值为null;条件值为false,要求请求值必须存在且值不为null。 IP类型 表8 IP类型运算符 类型 运算符 说明 IP IpAddress 指定IP地址或者IP范围。 NotIpAddress 指定IP地址或者IP范围之外的所有IP地址。 示例:拒绝IP地址在10.27.128.0到10.27.128.255范围内的请求修改指定的永久访问密钥。 { "Version": "5.0", "Statement": [ { "Effect": "Deny", "Action": [ "iam:credentials:updateCredentialV5" ], "Condition": { "IpAddress": { "g:SourceIp": [ "10.27.128.0/24" ] } } } ] } “IfExists”运算符后缀 除Null运算符以外,您可以在任何条件运算符名称的末尾添加IfExists,例如:StringEqualsIfExists。如果请求的内容中存在条件键,则依照策略所述来进行匹配。如果该键不存在,则该条件元素的匹配结果将为true。
  • 策略参数 策略参数包含Version和Statement两部分,下面介绍策略参数详细说明。 表1 策略参数说明 参数 是否必选 含义 值 Version 必选 策略的版本。 5.0(不可自定义) Statement: 策略的授权语句 Statement Sid 可选 策略语句标识符。您可为语句数组中的每个策略语句指定Sid值。 用户自定义字符串。 Effect:作用 必选 定义Action中的操作权限是否允许执行。 Allow:允许执行。 Deny:不允许执行。 说明: 当同一个Action的Effect既有Allow又有Deny时,遵循Deny优先的原则。 当Effect为Allow时,不能有Condition元素。 Action:授权项 Allow时必选。 Deny时与NotAction二选一。 操作权限。 格式为“服务名:资源类型:操作”。授权项支持通配符号*,通配符号*表示所有。 参数中的通配符*和?只能单独使用或放在字符串结尾处。它不能出现在字符串的开头或中间部分。 例如“vpc:subnets:list”:表示查看VPC子网列表权限,其中vpc为服务名,subnets为资源类型,list为操作。 NotAction Allow时不可选。 Deny时与Action二选一。 Deny时,NotAction列出的操作或服务不受当前策略影响,即除了NotAction列表中的操作之外,其他操作deny。 格式同Action。 Condition:条件 Allow时不可选。 使策略生效的特定条件,包括条件键和运算符。 格式为“条件运算符:{条件键:[条件值1,条件值2]}”。 如果您设置多个条件,同时满足所有条件时,该策略才生效。 示例: "StringEndWithIfExists":{"g:UserName":["specialCharactor"]}:表示当用户输入的用户名以"specialCharactor"结尾时该条statement生效。 Resource:资源类型 可选 未指定时,Resource默认为“*”,策略应用到所有资源。 策略所作用的资源。 Allow时,只能为“*”。 Deny时,可选择“*”或具体资源,格式为“服务名:region:domainId:资源类型:资源路径”, 资源类型支持通配符号*,通配符号*表示所有。 示例: "obs:*:*:bucket:*": 表示所有的OBS桶。 "obs:*:*:object:my-bucket/my-object/*": 表示my-bucket桶my-object目录下的所有对象。 SCP中不支持以下元素: Principal NotPrincipal NotResource