检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据质量 数据质量检测算子,是用户在进行离线计算之前使用原始初始格式数据(离线数据源中的离线数据)或者通用格式数据检测输入数据是否合法。包括离线数据中是否包含特殊字符,数据类型是否正确,是否缺少必备信息等。 前提条件 已将离线数据上传至OBS桶中。 创建数据质量作业 创建数据质量操作步骤如下:
自定义指标包含参数设置和指标设置两部分。 参数设置 参数别名:用户指定参数别名应用于指标公式。 行为类型:选择需要进行评估的行为类型,如物品曝光。 阈值:阈值是用来衡量用户行为有效性的标准, 当数据源的actionMeasure的值大于阈值时, 当前用户行为有效。 去重:您可以单击勾选,根据用户对行为记录去重。
数据探索是什么?近线实时数据如何在数据探索中的报告体现? 数据探索是针对当前数据源的数据进行挖掘和分析,主要聚焦在特征的分布范围、统计以及特征齐全度等,使用户能够更了解数据,进而指导在特征工程以及相关算法的配置。 数据探索是一个离线分析任务,任务有对应的启动时间,由于近线实时数据会实时
“行为次数统计方法”:选择“uv”,即相同的行为记录会进行去重。“pv”的意思是同样行为记录不会去重。 “用户分群”:数据源类型包括用户特征和物品特征,根据数据源筛选数据, 选出需要的属性。只能选择进行用户分组还是物品分组,分组内可配置多个特征。默认关闭。 “最大推荐数结果数”:指定召回的结果数量。
数据探索 数据探索介绍 数据探索是针对当前数据源的数据进行挖掘和分析,主要聚焦在特征的分布范围、统计以及特征齐全度等,使用户能够更了解数据,进而指导在特征工程以及相关算法的配置。 数据探索是一个离线分析任务,任务有对应的启动时间,由于增量数据会实时入库,因此可以通过定时执行数据探索任务来覆盖增量数据。
召回策略 召回是指对大量的物品做初选,为每一个用户形成个性化侯选集。召回策略是指通过大数据计算或深度训练生成推荐候选集的算法策略。召回策略中内置了多种召回方式,您可根据自己场景选择。 基于综合行为热度推荐 基于综合行为热度推荐统计用户对物品所有行为的加权热度。如果选择用户分群,将
进入“识别”页面,确认页面信息后单击“是”进行特征抽取。 当执行完成“识别”状态为“已完成”时,进行“人工复核”确认操作。 在“特征抽取”页签确认识别出的数据信息。 如果复核抽取的数据信息无误,单击“确认”,在“复核特征抽取”页面单击“是”完成复核。如果复核抽取的数据信息不符合预期,可选择“重新识别”
有在线服务正在运行,无法修改在线并发规格 请检查是否有在线服务正在运行。 400 RES.3004 Basic Error 数据库资源模型配置出错 请联系管理员检查数据库模型配置。 400 RES.3005 Basic Error 数据源连接配额不足 您可以构建最多5数据连接。请及时清理连接。
Logistic Regression (LR) LR算法是一种广义的线性回归分析模型,常用于数据挖掘、疾病自动诊断、经济预测等领域。LR算法通过在线性回归的基础上叠加一个sigmoid激活函数将输出值映射到[0,1]之间,是机器学习领域里常用的二分类算法。 表1 逻辑斯蒂回归参数说明
st.add(putRecordsRequestEntry); putRecordsRequest.setRecords(putRecordsRequestEntryList); dic.putRecords(putRecordsRequest); } catch
st.add(putRecordsRequestEntry); putRecordsRequest.setRecords(putRecordsRequestEntryList); dic.putRecords(putRecordsRequest); } catch
参数名称 是否必选 参数类型 说明 title 是 String 待处理的文本。 mode 是 String 选择功能,该功能指定为"sorted-keywords"。 topn 是 String 设置最多保留前n个词(如不足n个则全保留),注意是String类型,如保留前10个词,则 "topn":"10"。
nearline_platform 是 JSON 请参见表3,近线计算平台。 strategy 是 JSON 请参见表5,策略信息。 表3 nearline_platform 参数说明 参数名称 是否必选 参数类型 说明 platform 是 String 平台名称,最大长度64字符,支持DLI。
通过DLF重新执行作业 推荐系统提供了重新执行作业的API,用来将任务以相同的配置重新执行一次,实现对离线任务生成结果的更新。以固定的周期定时调用此API,可保持结果处于一个较新的状态,以获得更好的推荐结果。 以上功能,我们也可以使用数据治理中心 DataArts Studio,
通过DLF进行作业监控及任务异常重新启动 推荐系统提供了查询作业详情API接口,可返回作业详情。返回体中的作业状态字段“jobs.job_status”表示了当前任务的状态。 重新执行作业的API用来将任务以相同的配置重新执行一次。 通过查询作业详情API和重新执行作业的API可
datasource_id 是 String 数据源id project_id 是 String 项目id,获取方式请参见获取项目ID workspace_id 是 String 工作空间id 表2 Query参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String
algorithm_type 是 String 算法类型 DATA_QUALITY_INSPECTION algorithm_parameters 是 JSON 算法参数,每一种算法都有其特定的参数。 DATA_QUALITY_INSPECTION,请参见表7。 data_source 是 List
参数类型 描述 project_id 是 String 项目id,获取方式请参见获取项目ID。 workspace_id 是 String 工作空间id。 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 Content-Type 是 String 内容类型,取值为application/json。
训练作业描述,最大长度为256字符。 offline_platform 是 List 请参见表3,离线计算平台信息。 data_source 是 List 请参见表5数据源。 storage 是 List 请参见表8,信息存储。 algorithm_setting 是 JSON 请参见表10,算法配置。 filter_rules
参数名称 是否必选 参数类型 说明 header 是 Boolean 是否显示表头。 delimiter 是 String 分割符,最大长度10个字符。 quote 是 String 引用字符,最大长度10个字符。 escape 是 String 转义字符,最大长度10个字符。 表8