检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
建user_data、product_data、comment_data和action_data的文件夹,分别将user_data.csv、product_data.csv、comment_data.csv和action_data.csv文件上传数据到对应文件夹中。 由于DLI在
不支持Oracle实时增量数据同步。 分布式缓存服务(DCS)和Redis数据源约束 第三方云的Redis服务无法支持作为源端。如果是用户在本地数据中心或ECS上自行搭建的Redis支持作为源端或目的端。 仅支持Hash和String两种数据格式。 文档数据库服务(DDS)和MongoDB数据源约束 从Mon
k/,即1000名用户对1700部电影的100,000个评分数据。获取链接中的zip数据包并解压,其中的“u.item”和“u.data”文件分别为电影信息和评分信息。 为方便演示,本示例提供了用于模拟原始数据的部分数据。为了方便将源数据集成到云上,我们需要先将样例数据存储为CS
技术资产”页面,可以对数据开发的作业、节点、表进行查询。 在“类型”筛选区域,单击“搜索全部”按钮并在全部类型中勾选“Job”、“Node”和“Table”,然后单击“确定”。数据开发中的作业对应于Job类型,节点对应于Node类型,表对应于Table类型。 数据开发中的作业信息不
e2,table3 采集后的数据表元数据:table1,table2,table3 按照如下配置,采集任务仅采集table1,table2和table3。 进入DataArts Studio控制台首页的数据目录模块。 单击左侧导航的“任务管理”,进入任务管理页面。 在任务管理页面单击“新建”,新建一个元数据采集任务。
求: 作业A的调度周期不能比依赖作业B小。例如,作业A和作业B同为分钟/小时调度,A的间隔时间小于B的间隔时间,则作业A不能设置作业B为依赖作业;作业A为分钟调度,作业B为小时调度,则作业A不能设置作业B为依赖作业。 作业A和依赖作业B中不能有任一调度周期为周。例如,作业A的调度
果,并根据表达式的结果是否为真来判断是否触发告警。如果表达式的结果为真则触发质量告警,结果为假则不触发质量告警。 告警条件表达式由告警参数和逻辑运算符组成。 每个规则的告警参数会在“告警参数”中以按钮形式列出。单击这些按钮,在“告警条件”中将按告警参数的排列顺序显示为${1}、$
请参见实时集成作业监控:查看作业详细信息。 实时集成作业监控:启动 单击“启动”,弹出“启动配置”界面。 设置“同步模式”和“时间”。 同步模式包含增量同步和全量同步。 时间表示配置的位点时间早于日志最早时间点时,会以日志最早时间点消费。当设置为“增量同步”时才显示时间参数。 单击“确定”,启动该任务。
手动:选择“集群名”模式,“IP”和“端口”不需要手动填写。 MRS集群名:选择已有的MRS集群。 KMS密钥:选择一个KMS密钥,使用KMS密钥对敏感数据进行加密。如果未创建KMS密钥,请单击“访问KMS”进入KMS控制台创建一个密钥。 绑定Agent:需选择一个数据集成集群作为连接代理,该集群和MRS集
在DWS中创建数据库,以“gaussdb”数据库为例。创建数据库的详情请参考新建数据库进行操作。 创建数据表 在“gaussdb”数据库中创建数据表trade_log和trade_report。详情请参考如下建表脚本。 create schema store_sales; set current_schema=
“使用SQL语句”选择“是”时,您可以在这里输入自定义的SQL语句,CDM将根据该语句导出数据。 说明: SQL语句只能查询数据,支持join和嵌套写法,但不能有多条查询语句,比如 select * from table a; select * from table b。 不支持with语句。
的“启动作业”章节。配置RestAPI节点的属性如下 : 节点名称:运行作业。 URL地址:其中project_id、cluster_id和2. 配置“创建作业”节点中的保持一致,作业名需要配置为“dws2obs-${currentTime}”。格式为https://{Endpoint}/cdm/v1
“使用SQL语句”选择“是”时,您可以在这里输入自定义的SQL语句,CDM将根据该语句导出数据。 说明: SQL语句只能查询数据,支持join和嵌套写法,但不能有多条查询语句,比如 select * from table a; select * from table b。 不支持with语句。
选择解决方案包含的作业。 单击“确定”,新建的解决方案将在左侧目录中显示。 编辑解决方案 在解决方案目录中,右键单击解决方案名称,选择“编辑”,修改名称和作业。 导出解决方案 在解决方案目录中,右键单击解决方案名称,选择“导出”,导出zip格式的解决方案文件至本地。 导入解决方案 导入解决方案
使用JSP表达式语言(Expression Language)对当前字段或整行数据进行转换。JSP表达式语言可以用来创建算术和逻辑表达式。在表达式内可以使用整型数,浮点数,字符串,常量true、false和null。 数据进行转换过程中,替换内容包含特殊字符时,需要先使用\将该字符转义成普通字符。 表达式支持以下两个环境变量:
DLI提供的设置作业优先级功能,当资源不充足时,可以优先满足优先级较高的作业的计算资源。DLI优先级功能包含DLI Flink Job、DLI SQL和DLI Spark三个作业算子。 只有运行在弹性资源池上的作业支持设置作业优先级。 弹性资源池上的SQL作业支持作业优先级。 Spark 2
“使用SQL语句”选择“是”时,您可以在这里输入自定义的SQL语句,CDM将根据该语句导出数据。 说明: SQL语句只能查询数据,支持join和嵌套写法,但不能有多条查询语句,比如 select * from table a; select * from table b。 不支持with语句。
API修改完成后,单击“下一步”进入测试页面。填写相关参数后,进行API测试。 左侧为API请求参数配置区域,参数说明如表1所示。右侧为API发送的请求信息和API请求调用后的返回结果回显。 表1 调试API 参数名称 说明 API版本 仅专享版支持指定API版本调试。 当未指定API版本时,默认调试的是未发布的API。
全局配置”或在映射后的单表“表属性编辑”中配置index.type和hoodie.bucket.index.num.buckets属性可进行配置。 判断使用分区表还是非分区表。 根据表的使用场景一般将表分为事实表和维度表: 事实表通常整表数据规模较大,以新增数据为主,更新数据占比
说明 取值样例 写入目录 写入数据到HDFS服务器的目录。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步。 说明: 如果配置了时间宏变量,通过DataArts St