检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在数据开发主界面,单击左侧导航上的“脚本开发”,进入脚本目录。 单击脚本目录中的,选择“显示复选框”。 勾选需要导出的脚本,单击 > 导出脚本。导出完成后,即可通过浏览器下载地址,获取到导出的zip文件。 图1 选择并导出脚本 在弹出的“导出脚本”界面,选择需要导出的脚本的状态,单击“确定”。
取值样例 名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 obs_link OBS终端节点 终端节点(Endpoint)即调用API的请求地址,不同服务不同区域的终端节点不同。您可以通过以下方式获取OBS桶的Endpoint信息: OBS桶的Endpoin
历史数据到源数据表,使用数据集成将历史数据从OBS导入到SDI贴源层的原始数据表。 历史数据清洗,使用数据开发的MRS Hive SQL脚本将源数据表清洗之后导入DWI层的标准出行数据表。 将基础数据插入维度表中。 将DWI层的标准出行数据导入DWR层的事实表中。 数据汇总,通过Hive
索服务的任务。 图4 创建Oracle到云搜索服务的迁移任务 作业名称:用户自定义便于记忆、区分的任务名称。 源端作业配置 源连接名称:选择创建Oracle连接中的“oracle_link”。 模式或表空间:待迁移数据的数据库名称。 表名:待迁移数据的表名。 高级属性里的可选参数一般情况下保持默认即可。
企业数字化转型面临的挑战 企业在进行数据管理时,通常会遇到下列挑战。 数据治理的挑战 缺乏企业数据体系标准和数据规范定义的方法论,数据语言不统一。 缺乏面向普通业务人员的高效、准确的数据搜索工具,数据找不到。 缺乏技术元数据与业务元数据的关联,数据读不懂。 缺乏数据的质量管控和评估手段,数据不可信。
后妥善保管。 - 密钥(SK) - OBS测试路径 “OBS支持”设置为“是”时,呈现此参数。 请填写完整的文件路径,将调用元数据查询接口来校验路径的访问权限。 说明: 如果是对象存储,路径需要填写到对象级别,否则会报错404,例如:“obs://bucket/dir/test.txt”。
将源数据CSV文件上传到OBS服务。 登录控制台,选择“存储 > 对象存储服务 OBS”,进入OBS控制台。 单击“创建桶”,然后根据页面提示配置参数,创建一个名称为“fast-demo”的OBS桶。 为保证网络互通,OBS桶区域请选择和DataArts Studio实例相同的区域。如果需要
理。 对象存储服务(OBS)数据源约束 迁移文件时系统会自动并发,任务配置中的“抽取并发数”无效。 不支持断点续传。CDM传文件失败会产生OBS碎片,需要用户到OBS控制台清理碎片文件避免空间占用。 不支持对象多版本的迁移。 增量迁移时,单个作业的源端目录下的文件数量或对象数量,
到DWS的任务。 图4 创建Oracle到DWS的迁移任务 作业名称:用户自定义便于记忆、区分的任务名称。 源端作业配置 源连接名称:选择创建Oracle连接中的“oracle_link”。 模式或表空间:待迁移数据的数据库名称。 表名:待迁移数据的表名。 高级属性里的可选参数一般情况下保持默认即可。
getOrCreate() return spark if __name__ == '__main__': # 创建一个名为"myj"的SparkSession对象 odps = create_spark_session() odps.execute_sql=execute_sql
taArts Studio实例相同的企业项目。 使用OBS控制台创建桶的操作,请参见《对象存储服务控制台指南》中的创建桶。 上传数据到名称为“fast-demo”的OBS桶中。 使用OBS控制台上传文件的操作,请参见《对象存储服务控制台指南》中的上传文件。 样例数据如下。 VendorID
业所需的资源组。 套餐包(按需资源包):建立在按需计费的基础之上,通过预付费购买一定时间期限内的使用量套餐包。相对于按需计费更优惠,对于长期使用者,推荐使用套餐包。 创建套餐包计费的增量包后,购买的是和具体的区域、实例规格绑定的资源包,不会自动创建资源组,而是在生效期内的每个计费
产和技术资产,业务资产就是指逻辑实体和业务对象,技术资产就是指数据连接、数据库对象等。 本章节介绍如何在DataArts Studio数据目录中查看业务资产和技术资产。例如,在技术资产的事实表中,您可以查看数据血缘等详细信息,在技术资产的汇总表中,您可以查看预览结果等详细信息。 查看业务资产和技术资产
某数据运营工程师负责本公司的数据质量监控,仅需要数据质量组件的权限。管理员如果直接赋予该数据运营工程师“开发者”的预置角色,则会出现其他组件权限过大的风险。 为了解决此问题,项目管理员可以创建一个基于“开发者”预置角色的自定义角色“Developer_Test”,在“开发者”角色权限的基础上为其
数据开发EL表达式使用简单的算术和逻辑计算,引用内嵌对象,包括作业对象和一些工具类对象。 环境变量 环境变量是在操作系统中一个具有特定名字的对象,它包含了一个或者多个应用程序所将使用到的信息。 补数据 手工触发周期方式调度的作业任务,生成过去某时间段内的实例。 数据治理 数据资源
Studio实例的用户,系统将默认为其创建一个默认的工作空间“default”,并赋予该用户为管理员角色。您可以使用默认的工作空间,也可以参考本章节的内容创建一个新的工作空间。 DataArts Studio实例内的工作空间作为成员管理、角色和权限分配的基本单元,包含了完整的DataArts
开启数据服务集群OBS日志转储 功能介绍 开启数据服务集群OBS日志转储。 调用方法 请参见如何调用API。 URI PUT /v1/{project_id}/service/instances/{instance_id}/obs-log-dump 表1 路径参数 参数 是否必选
Studio实例的用户,系统将默认为其创建一个默认的工作空间“default”,并赋予该用户为管理员角色。您可以使用默认的工作空间,也可以参考本章节的内容创建一个新的工作空间。 DataArts Studio实例内的工作空间作为成员管理、角色和权限分配的基本单元,包含了完整的DataArts
这样CDM每天凌晨自动执行全量迁移,但因为“重复文件处理方式”选择了“跳过重复文件”,相同名称且相同大小的文件不迁移,所以只会上传每天新增的文件。 单击“保存”,完成CDM的增量同步配置。 父主题: 使用CDM上传数据到OBS
选择存储了以“关系”为基础的结构数据的图。 绑定Agent 请选择由CDM集群提供的Agent。 用户也可以单击“新建”,创建新的Agent,创建完成后单击“刷新”,选择新的Agent即可。 OBS连接 OBS桶 选择待采集数据归属的OBS桶。 OBS路径 选择待采集数据在OBS桶中的存储路径。