检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
字段分隔符 用于分隔CSV文件中的列的字符,支持单字符和多字符,也支持特殊字符,详见表1。 编码类型 文件的编码类型,默认是UTF-8,中文的编码有时会采用GBK。 如果源端指定该参数,则使用指定的编码类型去解析文件;目的端指定该参数,则写入文件的时候,以指定的编码类型写入。 使用包围符
DATABASE OPEN启动数据库。 Oracle开启数据库和需要迁移的表的补充日志。 执行以下SQL开启数据库补充日志。 ALTER DATABASE ADD SUPPLEMENTAL LOG DATA; 开启需要实时同步的表的补充日志。 ALTER TABLE "schema_name"
在脚本目录中,右键单击目录名称,选择新建相应的脚本。 进入脚本开发页面,具体操作请参见开发SQL脚本、开发Shell脚本、开发Python脚本。 当前最多支持创建5个同类型的临时脚本。当关闭了临时未保存的脚本,再次新建同类型的脚本时,会打开上次未保存的临时脚本。 父主题: 脚本开发
授权对象默认为数据开发组件,需选择需要授权的操作,并支持配置单次转储记录值上限。 说明: 数据开发组件中不同数据源的SQL脚本转储支持的单次最大记录值不同,详见下载或转储脚本执行结果。此处配置的记录值上限可参考此规格进行配置。 *授权对象 选择需要授权的用户。 指定用户:可以配置为指定的用户以及用户组。 说明:
并行化处理技术,使用CDM迁移数据的优势如表1所示。 表1 CDM优势 优势项 用户自行开发 CDM 易使用 自行准备服务器资源,安装配置必要的软件并进行配置,等待时间长。 程序在读写两端会根据数据源类型,使用不同的访问接口,一般是数据源提供的对外接口,例如JDBC、原生API等
Spark数据源,如果使用一套相同的集群,则需要配置数据源资源映射的DB数据库映射关系进行开发生产环境隔离。 数据准备与同步: 数据湖服务创建完成后,您需要按照项目规划(例如数据开发需要操作的库表等),分别在开发和生产环境的数据湖服务中,新建数据库、数据库模式(仅DWS需要)、数据表等。 对于集群化的数据源
在数据库属性标签中可以获取到端口信息。 例如8000,默认值为空。 userName 是 String 数据库的用户名,创建DWS集群的时输入的用户名。 password 是 String 数据库的访问密码,创建DWS集群的时候输入的密码。 sslEnable 是 boolean 是否使用ssl连接。 kmsKey
用户Token,使用Token认证时必选。通过调用ManageOne平台的IAM服务的“获取用户Token”接口获取响应消息头中X-Subject-Token的值。 workspace 是 String 数据所在空间的id值。 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型
DataArts Studio采用基础包+增量包的计费模式。为了便于您便捷的下单购买,在控制台购买界面中系统会为您计算好所购买的套餐包的价格,您可一键完成整个配置的购买。 计费方式 计费说明 04 使用 指导您快速构建从数据接入到数据分析的端到端智能数据系统,消除数据孤岛,统一数据标准,加快数据变现,实现数字化转型。
字段分隔符 用于分隔CSV文件中的列的字符,支持单字符和多字符,也支持特殊字符,详见表1。 编码类型 文件的编码类型,默认是UTF-8,中文的编码有时会采用GBK。 如果源端指定该参数,则使用指定的编码类型去解析文件;目的端指定该参数,则写入文件的时候,以指定的编码类型写入。 使用包围符
数据开发调用数据质量算子并且作业运行的时候需要传入质量参数 由于数据质量作业在执行SQL语句时不支持传参,通过数据开发调用数据质量算子,运行的时候可以把数据质量作业的参数传递给数据质量算子作业,实现数据质量的参数传递。 使用场景 数据质量需要传递参数到数据质量算子作业里面并且能够正常运行。
p内嵌对象;循环执行的子作业的作业参数名配置后,参数值无需配置可置为空。 当循环执行的子作业需要使用自身参数变量运行时,则本参数可置为空;循环执行的子作业的作业参数需配置参数值。 数据集 是 For循环算子需要定义一个数据集,这个数据集用来循环替换子作业中的变量,数据集应为二维数
中MaxSessions的配置值确定。请根据Shell或Python脚本的调度频率合理配置MaxSessions的值。 连接主机的用户需要具有主机/tmp目录下文件的创建与执行权限。 Shell和Python脚本都是发往ECS主机的/tmp目录下去运行的,需要确保/tmp目录磁盘不被占满。
是 List<String> 依赖的作业名称列表,必须依赖已存在的作业。 dependPeriod 否 String 依赖周期: SAME_PERIOD :依赖被依赖作业的同周期任务的执行结果。 PRE_PERIOD :依赖被依赖作业的前一周期任务的执行结果。 默认值 : SAME_PERIOD
更新:当数据重复时 系统中的原有数据为草稿状态,则会覆盖生成新的草稿数据。 系统中的原有数据为发布状态,则会生成下展数据。 单击“添加文件”,选择编辑完成的导入模板。 单击“上传文件”,上传完成后,自动跳转到“上次导入”页签,查看已导入的数据。 单击“关闭”。 导出 可通过导出的方式将衍生指标导出到本地。
义相同的字段,单击或按钮增加或删除JOIN条件。JOIN条件之间是and的关系。 单击“确定”完成设置。 设置JOIN后,如果想删除JOIN表,单击所需删除的表名后的按钮就可以删除该JOIN表。 图4 JOIN条件 字段映射 为来源于当前映射的字段,依次选择一个含义相同的源字段。
SDI贴源层的原始数据表。 历史数据清洗,使用数据开发的MRS Hive SQL脚本将源数据表清洗之后导入DWI层的标准出行数据表。 将基础数据插入维度表中。 将DWI层的标准出行数据导入DWR层的事实表中。 数据汇总,通过Hive SQL将出租车行程订单事实表中的数据进行汇总统计并写入汇总表。
用户Token,使用Token认证时必选。通过调用IAM服务的“获取用户Token”接口获取响应消息头中X-Subject-Token的值。 workspace 是 String 工作空间ID,获取方法请参见实例ID和工作空间ID。 Dlm-Type 否 String 数据服务的版本类型,指定SHARED共享版或EXCLUSIVE专享版。
取值样例 名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 sap_link 数据库服务器 配置为要连接的数据库的IP地址或域名。 单击输入框后的“选择”,可获取用户的实例列表。 192.168.0.1 端口 配置为要连接的数据库的端口。 不同的数据库端口不同,请根据具体情况配置。
支持手动输入,也可以在下拉列表中选择已经创建的维度。维度的创建请参见新建维度。 已创建的统计维度来自数据架构模块。 单击“查看映射关系”,可以查看映射关系配置的维度信息,并选择维度对应的字段。 例如,该示例中,统计维度设置为地区。 时间周期 在下拉框中选择所需要的时间周期,并选择关联的字段。系统预置了一些