离线作业-华为云

数据治理中心 DATAARTS STUDIO-支持的数据源:表/文件同步支持的数据源类型

表/文件同步支持的数据源类型表/文件同步可以实现表或文件级别的数据同步。支持单表同步的数据源（已支持的数据源即可作为源端，又可作为目的端组成不同链路）如下所示：数据仓库：DWS、 DLI Hadoop： MRS Hive、Apache Hive、MRS HBase、MRS Hudi、OpenSource ClickHouse、Apache HDFS、Doris 对象存储：OBS 文件系统：FTP、SFTP 关系型数据库：RDS（MySQL）、RDS（PostgreSQL）、RDS（SQL Server）、RDS（达梦数据库DM）、RDS（SAP HANA）、Oracle、GBASE 创建数据连接时也支持用户使用自建的数据库，如MySQL、PostgreSQL、SQL Server、达梦数据库DM、SAP HANA，在选择界面对应的RDS（MySQL）、RDS（PostgreSQL）、RDS（SQL Server）、RDS（达梦数据库DM）、RDS（SAP HANA）即可。 Apache HDFS目前仅支持作为源端数据源。非关系型数据库：MongoDB、Redis 消息系统：DMS Kafka 搜索：Elasticsearch 其他：Rest Client 表1 表/文件迁移支持的数据源数据源分类源端数据源对应的目的端数据源说明 MySQL MySQL、PostgreSQL、 SQL Server、Oracle、 DWS、SAP HANA、OBS MRS Hive、MRS Hudi DLI、MongoDB、Doris、Kafka、ClickHouse、 CSS 、 Mrs-HBase 、GBASE8A、 Apache HDFS 、Redis、 Rocket MQ

数据治理中心 DATAARTS STUDIO 数据集成（离线作业）

推荐系统 RES-组合作业:召回策略

召回策略您可以根据业务需要，选择合适的召回策略。召回策略用于配置离线计算逻辑，通过启动离线计算任务进行候选推荐结果集的生成。各个召回策略的详细参数设置和输入输出请单击下方链接查看。基于特定行为热度推荐基于综合行为热度推荐基于物品的协同过滤推荐基于用户的协同过滤推荐基于交替最小二乘的矩阵分解推荐业务规则-基于历史行为记忆生成候选集业务规则-人工导入基于属性匹配的召回策略配置召回策略操作步骤如下：在“创建组合作业”页面，配置完资源选择参数之后，进入“召回策略”页签，单击“添加召回策略”，根据业务需要在下拉框中选择一个合适的策略，如图2所示。图2 召回策略（可选）在目标召回策略右侧，单击“查看输入输出”，可以查看输入数据和输出数据。（可选）在目标召回策略右侧，单击“设置参数”，可以对所选策略进行参数设置。具体策略的参数说明可单击上方策略名称进行查看，策略设置完成后，单击“下一步”。

推荐系统 RES 离线作业

推荐系统 RES-组合作业:排序策略

排序策略排序策略是用于对召回策略生成的候选集进行二次排序。如果使用排序策略，需在特征工程中提交排序样本预处理，创建完成后才可以正常使用排序策略。各个策略的详细参数设置和输入输出请单击下方链接查看。逻辑斯蒂回归-LR 因子分解机-FM 域感知因子分解机-FFM 深度网络因子分解机-DeepFM 核函数特征交互神经网络-PIN 在“创建组合作业”页面，配置完过滤规则参数之后，进入“排序策略”页签，如图3所示。用户可以根据业务需要在“添加排序策略”下拉框中选择一个合适的排序策略，请参见排序策略对所选排序策略进行参数设置。图3 排序策略（可选）在目标排序策略，单击“删除”，可以删除对应排序策略。具体策略的参数说明可单击上方策略名称进行查看，策略设置完成之后，单击“下一步”进入“预览设置”页面。

推荐系统 RES 离线作业

推荐系统 RES-组合作业:预览配置

预览配置在“预览设置”页面，展示了创建作业的名称、资源信息、召回策略信息、过滤规则和排序规则详细信息。预览结束后，单击“完成”，组合作业创建完成。作业一般需要运行一段时间，根据您的数据量和资源不同，训练时间将耗时几分钟到几十分钟不等。您可以前往组合作业列表，查看作业的基本情况。在组合作业列表中，刚创建的离线作业“状态”为“计算中”，当离线作业的“状态”变为“计算成功”时，表示作业运行结束，生成的候选集ID将使用于在线服务，为用户生成推荐列表。当离线作业的“状态”变为“计算失败”时，您可以单击作业的名称，进入详情页面，通过查看日志等手段处理问题。

推荐系统 RES 离线作业

推荐系统 RES-组合作业:资源选择

资源选择您在使用RES时需要选择计算引擎、存储平台和数据源。计算引擎对数据进行计算，存储平台将处理的数据进行存储。其选择的服务资源即为“资源中心”绑定的资源。在RES管理控制台完成“基本配置”之后，进入“资源选择”页签。填写组合作业相关配置参数，请参见表1。表1 创建组合作业参数说明模块参数名称说明计算引擎服务名计算引擎用于推荐系统的离线计算和近线计算。默认DLI。集群名称选择“资源中心”绑定的DLI集群名称。任务配置地址在创建作业时，会自动生成一个JSON格式的配置源文件，该文件存储在指定的OBS路径中，计算引擎可以通过读取配置源文件来进行离线计算。资源名指定DLI运行作业的资源规格。可选择“全局配置”添加的计算资源或默认值。存储平台服务名称 CloudTable作为存储平台，用于用户推荐在线数据和推荐候选集的存储。此处选择已经完成资源绑定的CloudTable。集群名称选择“资源中心”绑定的CloudTable集群名称。表名存储的表格名称。您可以单击设置数据版本。RES的数据版本有两种，“V1”版本即数据按照原有格式存储，未做过分区处理。“V2”版本则会依照用户的分区设置做分区处理，当分区合理时，数据将均匀分布在各个节点，有效利用Cloudtable的高并发特性，提升读写效率。其中“预分区数量”和“索引分区数量”可以根据数据量进行设置，如果读写性能达不到要求，可以增加Cloudtable的RS单元数量提升性能。数据源初始格式选择提前已经存储在OBS上的如下数据源：用户属性表物品属性表用户操作行为表如上数据表的数据格式规范请参见离线数据源。在对应表的“数据源”列中，单击选择数据的OBS存储路径。在对应表的“数据格式”列中，数据格式可选：csv/json。当选择数据格式为csv时，在弹框中设置数据参数，具体参数如下：表头，有或无，根据用户数据格式选取。分隔符，选择逗号（,）、竖线（|）、制表符（\t）和自定义。引用字符，单引号（'）、双引号（"）和自定义。转义字符，反斜杠（\）和自定义。在对应表的“操作”列中，单击“清除数据”可以删除对应表的数据源。通用格式通用数据由特征工程“初始用户画像-物品画像-标准宽表生成”算子生成。其路径与“初始用户画像-物品画像-标准宽表生成”结果保存路径一致。说明：在使用通用格式数据之前，需要先进行特征工程算子计算。通用格式数据：从用户属性表、物品属性表和用户操作行为表中提取用户、物品特征和用户行为，并生成JSON数据，即内部通用格式。通用格式时间：用户行为数据时间范围，可只有起始时间、结束时间或为空。完成该项配置后，单击“下一步”。

推荐系统 RES 离线作业

推荐系统 RES-组合作业:基本配置

基本配置基本配置主要包括设置组合作业的名称和描述。登录RES管理控制台，在左侧导航栏的“离线作业”下，单击“组合作业”进入组合作业页面。在“组合作业”页面上方，单击“创建”，进入“创建组合作业”页面。填写“名称”、“场景”和“描述”，其中带*标志的参数为必填参数。组合作业名称请以“Standard-”开始，只能由字母、数字、中划线和下划线组成，并且长度小于64个字符。 “场景”信息可选择您在全局配置页面创建的场景。完成该项配置后，单击“下一步”。

推荐系统 RES 离线作业

云服务器内容精选

离线作业

7*24

备案

专业服务

退订

建议反馈

售前咨询热线