检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
为了将分散在不同系统中的数据迁移到DLI,确保数据可以在DLI集中分析和管理,你可以通过云数据迁移服务CDM等迁移工具迁移数据至DLI,再使用DLI提交作业分析数据。 CDM支持数据库、数据仓库、文件等多种类型的数据源,通过可视化界面对数据源迁移任务进行配置,提高数据迁移和集成的效率。 图1
示例说明:创建一个名为student的分区表,该分区表使用院系编号(facultyNo)和班级编号(classNo)进行分区,该student表会同时按照不同的院系编号(facultyNo)和不同的班级编号(classNo)分区。 在实际的使用过程中,您可以选择合适的分区字段并将其添加到PARTITIONED
创建DLI连接Kafka的增强型跨源连接 在Kafka管理控制台,选择“Kafka专享版”,单击对应的Kafka名称,进入到Kafka的基本信息页面。 在“连接信息”中获取该Kafka的“内网连接地址”,在“基本信息”的“网络”中获取获取该实例的“虚拟私有云”和“子网”信息,方便后续操作步骤使用。
示例说明:创建一个名为student的分区表,该分区表使用院系编号(facultyNo)和班级编号(classNo)进行分区,该student表会同时按照不同的院系编号(facultyNo)和不同的班级编号(classNo)分区。 在实际的使用过程中,您可以选择合适的分区字段并将其添加到PARTITIONED
CTAS建表语句不能指定表的属性。 OBS目录下包含子目录的场景: 创建表时,若指定路径为OBS上的目录,且该目录下包含子目录(或嵌套子目录),则子目录下的所有文件类型及其内容也是表内容。 您需要保证所指定的目录及其子目录下所有文件类型和建表语句中指定的存储格式一致,所有文件内容和表中的字段一致,否则查询将报错。
CTAS建表语句不能指定表的属性。 OBS目录下包含子目录的场景: 创建表时,若指定路径为OBS上的目录,且该目录下包含子目录(或嵌套子目录),则子目录下的所有文件类型及其内容也是表内容。 您需要保证所指定的目录及其子目录下所有文件类型和建表语句中指定的存储格式一致,所有文件内容和表中的字段一致,否则查询将报错。
前提条件 已创建DLI的SQL队列。创建DLI队列的操作可以参考创建DLI队列。 创建DLI队列时队列类型需要选择为“SQL队列”。 已创建包含Hive组件的MRS安全集群。创建MRS集群的操作详细可以参考创建MRS集群。 本示例创建的MRS集群和各组件版本如下: MRS集群版本:MRS
本节操作为您提供DLI队列在公网访问场景下网络打通的方法。通过配置SNAT规则,添加到公网的路由信息,可以实现队列到和公网的网络打通。 操作流程 图1 配置DLI队列访问公网流程 步骤1:创建VPC 登录虚拟私有云控制台,创建虚拟私有云。创建的VPC供NAT访问公网使用。 创建VPC的具体操作请参考创建虚拟私有云。
其他统计维度和周期,详细介绍请参见流水与明细账单。 图3 查询数据存储的资源账单 查看数据扫描量的资源账单 DLI的default队列采用数据扫描量的计费方式。扫描量计费=单价*扫描量数据(GB)。怎样查看DLI的数据扫描量? 您可以在费用中心查询DLI数据扫描量的资源账单。 在控制台顶部菜单栏中选择“费用与成本
String 在序列化地图数据的空键时指定处理模式。当前支持的值为“FAIL”、“DROP”和“LITERAL”:选项“FAIL”将在遇到带有空键的地图时抛出异常。选项“DROP”将删除地图数据的空键条目。选项“LITERAL”将替换空带字符串文字的键。字符串文字由 maxwell-json
操作场景 公网数据源指的是可以通过互联网访问的数据源。这些数据源资源有一个公网IP地址,配置DLI与公网网络联通可以实现对这些数据源的访问。 本节提供了详细的操作指导,介绍如何通过设置SNAT规则和配置路由信息,实现DLI服务与公网的网络连接。 操作流程 图1 配置DLI队列访问公网流程
用户可以根据需要修改作业名称和描述。 在DLI管理控制台的左侧导航栏中,单击“作业管理”>“Flink作业”,进入Flink作业管理页面。 在需要修改名称和描述的作业对应的“操作”列中,单击“更多 > 名称和描述修改”,弹出“属性修改”页面。修改作业名称和描述。 单击“确定”完成修改。 触发保存点
jects”,其中{Endpoint}为IAM的终端节点,可以从地区和终端节点获取。 响应示例如下,例如DLI服务部署的区域为“cn-north-4”,相应消息体中查找“name”为“cn-north-4”,其中projects下的“id”即为项目ID。 { "projects":
Java开发环境配置 操作场景 在安装和使用Java SDK前,确保您已经完成开发环境的基本配置。 Java SDK要求使用JDK1.8或更高版本。考虑到后续版本的兼容性,推荐使用1.8版本。 在Java运行环境配置好的情况下,打开windows的命令行,执行命令Java -version,可以检查版本信息。
对于包年/包月计费模式的资源,例如包年/包月的弹性资源池、包年/包月的队列等,用户在购买时会一次性付费,服务将在到期后自动停止使用。 如果在计费周期内不再使用包年/包月资源,您可以执行退订操作,系统将根据资源是否属于五天无理由退订、是否使用代金券和折扣券等条件返还一定金额到您的账户。详细的退订规则请参见云服务退订规则概览。
单击“提交”完成弹性资源池的创建。 在弹性资源池的列表页,选择要操作的弹性资源池,单击操作列的“添加队列”。 配置队列的基础配置,具体参数信息如下。 表3 弹性资源池添加队列基础配置 参数名称 参数说明 配置样例 名称 弹性资源池添加的队列名称。 dli_queue_01 类型 选择创建的队列类型。
自动续费 自动续费可以减少手动续费的管理成本,避免因忘记手动续费而导致资源被自动删除。自动续费的规则如下所述: 以资源的到期日计算第一次自动续费日期和计费周期。 您可以在购买资源时开通自动续费,在购买资源时,自动续费周期以实际选择的续费时长为准。 在到期前均可开通自动续费,到期前
某商城作为中国一家自营式电商,在保持高速发展的同时,沉淀了数亿的忠实用户,积累了海量的真实数据。如何利用BI工具从历史数据中找出商机,是大数据应用在精准营销中的关键问题,也是所有电商平台在做智能化升级时所需要的核心技术。 本案例以某商城真实的用户、商品、评论数据(脱敏后)为基础,利用
单击“提交”完成弹性资源池的创建。 在弹性资源池的列表页,选择要操作的弹性资源池,单击操作列的“添加队列”。 配置队列的基础配置,具体参数信息如下。 表3 弹性资源池添加队列基础配置 参数名称 参数说明 配置样例 名称 弹性资源池添加的队列名称。 dli_queue_01 类型 选择创建的队列类型。
CDM支持数据库、数据仓库、文件等多种类型的数据源,通过可视化界面对数据源迁移任务进行配置,提高数据迁移和集成的效率。 具体操作请参考迁移外部数据源数据至DLI。 图1 迁移数据至DLI 配置DLI读写外部数据源 如果您不想将数据导入OBS或DLI的数据表中,DLI提供的跨源访问能力,支持您在不迁移数据的情况下,连接数据源获取数据并进行数据分析。