检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建DWS维表 创建DWS表用于与输入流连接。 前提条件 请务必确保您的账户下已创建了所需的DWS实例。 语法格式 1 2 3 4 5 6 7 8 9 10 11 create table dwsSource ( attr_name attr_type
Redis维表 功能描述 创建Redis表作为维表用于与输入流连接,从而生成相应的宽表。 前提条件 要建立增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。 如何设置安全组规则,请参见《虚拟私有云用户指南
Spark作业运维类 运行Spark作业报java.lang.AbstractMethodError Spark作业访问OBS数据时报ResponseCode: 403和ResponseStatus: Forbidden错误 有访问OBS对应的桶的权限,但是Spark作业访问时报错
SQL作业运维类 用户导表到OBS报“path obs://xxx already exists”错误 对两个表进行join操作时,提示:SQL_ANALYSIS_ERROR: Reference 't.id' is ambiguous, could be: t.id, t.id.
Flink作业模板相关API 包括新建模板、更新模板、删除模板和查询模板列表。 Spark作业相关API 包括创建批处理作业、取消批处理作业、查询批处理作业列表、查询批处理作业详情、查询批处理作业状态和查询批处理作业日志。
DWS维表(不推荐使用) 功能描述 创建DWS表用于与输入流连接,从而生成相应的宽表。 推荐使用DWS服务自研的DWS Connector。 DWS-Connector的使用方法请参考dws-connector-flink。 前提条件 请务必确保您的账户下已在数据仓库服务(DWS)
示例 下面的示例展示了一个经典的业务流水线,维度表来自 Hive,每天通过批处理流水线作业或 Flink 作业更新一次,kafka流来自实时在线业务数据或日志,需要与维度表连接以扩充流。 使用spark sql 创建 hive obs 外表,并插入数据。
Python SDK环境配置 操作场景 在进行二次开发时,要准备的开发环境如表1所示。 表1 开发环境 准备项 说明 操作系统 Windows系统,推荐Windows 7及以上版本。 安装Python Python版本建议使用2.7.10和3.4.0以上版本,需要配置Visual
示例 该示例展示了一个经典的业务流水线,维度表来自 Hive,每天通过批处理流水线作业或 Flink 作业更新一次,kafka流来自实时在线业务数据或日志,需要与维度表连接以扩充流。 使用spark sql 创建 hive obs 外表,并插入数据。
DWS Connector概述 数据仓库服务(Data Warehouse Service,简称DWS)是一种基于基础架构和平台的在线数据处理数据库,为用户提供海量数据挖掘和分析服务。DLI将Flink作业从数据仓库服务(DWS)中读取数据。
TPC-H 是根据真实的生产运行环境来建模的,这使得它可以评估一些其他测试所不能评估的关键性能参数。总而言之,TPC组织颁布的TPC-H 标准满足了数据仓库领域的测试需求,并且促使各个厂商以及研究机构将该项技术推向极限。
新建SQL作业 功能介绍 该API用于创建Flink SQL作业。 调试 您可以在API Explorer中调试该接口。 URI URI格式 POST /v1.0/{project_id}/streaming/sql-jobs 参数说明 表1 URI参数说明 参数名称 是否必选 参数类型
compaction.async.enabled 否 false Boolean 是否开启在线压缩。 true:开启 false:关闭 建议关闭在线压缩,提升性能。
了解数据目录、数据库和表 数据库和表是SQL作业、Spark作业场景开发的基础,在执行作业前您需要根据业务场景定义数据库和表。 Flink支持动态数据类型,可以在运行时定义数据结构,不需要事先定义元数据。 数据目录 数据目录(Catalog)是元数据管理对象,它可以包含多个数据库。
适用于数据仓库查询、报表生成、OLAP(在线分析处理)等场景。 Flink作业 专为实时数据流处理设计,适用于低时延、需要快速响应的场景。适用于实时监控、在线分析等场景。
SQL作业访问报错:File not Found 问题现象 执行SQL作业访问报错:File not Found。 可能原因 可能由于文件路径错误或文件不存在导致系统无法找指定文件路径或文件。 文件被占用。 解决措施 检查文件路径、文件名。 检查文件的路径是否正确,包括目录名称和文件名
运行Spark作业报java.lang.AbstractMethodError Spark 2.3对内部接口Logging做了行为变更,如果用户代码里直接继承了该Logging,且编译时使用的是低版本的Spark,那么应用程序在Spark 2.3的环境中运行将会报java.lang.AbstractMethodError
SQL作业运行报错:DLI.0002 FileNotFoundException 问题现象 SQL作业执行报错,报错信息大致如下: Please contact DLI service. DLI.0002: FileNotFoundException: getFileStatus
Connector概述 表类型 源表:源表是Flink作业的数据输入表,例如Kafka等实时流数据输入。 维表:数据源表的辅助表,用于丰富和扩展源表的数据。在Flink作业中,因为数据采集端采集到的数据往往比较有限,在做数据分析之前,就要先将所需的维度信息补全,而维表就是代表存储数据维度信息的数据源
在线生成SDK代码 【样例】 API Explorer能根据需要动态生成SDK代码功能,降低您使用SDK的难度,推荐使用。 您可以在API Explorer中具体API页面的“代码示例”页签查看对应编程语言类型的SDK代码。 如图1所示。 图1 获取SDK代码示例