检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
从Kafka读取数据写入到Elasticsearch 本指导仅适用于Flink 1.12版本。 场景描述 本示例场景对用户购买商品的数据信息进行分析,将满足特定条件的数据结果进行汇总输出。购买商品数据信息为数据源发送到Kafka中,再将Kafka数据的分析结果输出到Elasticsearch中。
from opentsdb_new_test").show(); 插入数据后: 提交Spark作业 将写好的代码文件生成jar包,上传至DLI中。 控制台操作请参考《数据湖探索用户指南》。API操作请参考《数据湖探索API参考》>《上传资源包》。 在Spark作业编辑器中选择对应
使用DLI进行电商数据分析的操作过程主要包括以下步骤: 步骤1:上传数据。将数据上传到对象存储服务OBS,为后面使用DLI完成数据分析做准备。 步骤2:分析数据。使用DLI对待分析的数据进行查询。 具体样例数据及详细SQL语句可以通过数据包进行下载。 数据说明 为保护用户的隐私和数据安全,所有数据均已进行了采样和脱敏。
将写好的java代码文件上传至DLI中。 控制台操作请参考《数据湖探索用户指南》。API操作请参考《数据湖探索API参考》>《上传资源包》。 在Spark作业编辑器中选择对应的Module模块并执行Spark作业。 控制台操作请参考《数据湖探索用户指南》。API操作请参考《数据湖探索API参考》>《创建批处理作业》。
添加分区(只支持OBS表) 重命名分区(只支持OBS表) 删除分区 指定筛选条件删除分区(只支持OBS表) 修改表分区位置(只支持OBS表) 更新表分区信息(只支持OBS表) REFRESH TABLE刷新表元数据 父主题: 表相关
在DLI控制台预览表数据 “预览页面”将显示对应表的前10条数据。 预览数据步骤 预览数据的入口有两个,分别在“数据管理”和“SQL编辑器”页面。 在“数据管理”页面预览数据。 在管理控制台左侧,单击“数据管理”>“库表管理”。 单击需导出数据对应数据库名称,进入该数据库“表管理”页面。
表时报错,但您不确定是系统问题还是结果表WITH参数错误,您可以将WITH参数修改为'connector' = 'blackhole'后,单击运行。如果不再报错,则证明系统没有问题,您需要排查确认修改WITH参数是否正确。 表1 支持类别 类别 详情 支持表类型 结果表 注意事项
DLI数据库和表类 为什么在DLI控制台中查询不到表? OBS表压缩率较高怎么办? 字符码不一致导致数据乱码怎么办? 删除表后再重新创建同名的表,需要对操作该表的用户和项目重新赋权吗? DLI分区内表导入的文件不包含分区列的数据,导致数据导入完成后查询表数据失败怎么办? 创建OB
already exists”错误 该提示信息说明您将数据导出到一个已经存在的OBS路径。 解决方案: 新建OBS目录。 您可以新建一个不存在的OBS目录用于存储导出的数据。 删除已存在的OBS目录。 删除已存在的OBS目录后,目录下的所有数据将会被删除。请谨慎执行此删除操作。 检查目录权限
为RESTRICT,对列的修改,仅对表的元数据产生作用。 列修改命令只能修改表/分区的元数据,而不会修改数据本身。用户应确保表/分区的实际数据布局符合元数据定义。 不支持更改表的分区列/桶列,也不支持更改ORC表。 修改表或分区的存储位置。 ALTER TABLE table_name
由LakeFormation提供的元数据服务,权限配置详见LakeFormation文档。 示例 ALTER TABLE table1 DROP COLUMN a.b.c ALTER TABLE table1 DROP COLUMNS a.b.c, x, y a.b.c 表示嵌套列全路径,嵌套列具体规则见ADD
的OBS路径,格式为:obs://桶名/文件夹路径名/文件名。 依赖分组 在创建程序包时,如果选择了分组,在此处选择对应的分组,则可以同时选中该分组中的所有程序包和文件。创建程序包操作请参考创建DLI程序包。 访问元数据 是否通过Spark作业访问元数据。具体请参考《数据湖探索开发指南》
概述 数据类型是数据的一个基本属性,用于区分不同类型的数据。不同的数据类型所占的存储空间不同,能够进行的操作也不相同。数据库中的数据存储在表中。表中的每一列都定义了数据类型,用户存储数据时,须遵从这些数据类型的属性,否则可能会出错。 DLI当前只支持原生数据类型。 父主题: 数据类型
前提条件 在DLI管理控制台上已完成创建跨源连接并绑定队列。具体操作请参考《数据湖探索用户指南》。 认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 代码实现 导入依赖 涉及到的mvn依赖库 1 2 3
DATABASE和SCHEMA在此处是等价的,可互换的,它们有这相同的含义。 该语法用于显示SCHEMA的名称、注释、还有它在文件系统上的根路径。 可选项EXTENDED可以用来显示SCHEMA的数据库属性。 示例 CREATE SCHEMA web; DESCRIBE SCHEMA web;
'passwdauth' = 'xxx', 'encryption' = 'true'); 客户的RDS数据库为PostGre集群,url的协议头填写错误导致。 处理步骤 修改url为'url'='jdbc:postgresql://to-rds-1174405119-oLRHAGE7
自定义函数 创建函数 删除函数 显示函数详情 显示所有函数
); 描述 这条命令并不会将SCHEMA当前的内容移动到修改后的路径下,也不会修改与指定schema关联的表或分区,它只会修改新添加进数据库的表的上级目录。 示例 Create schema foo; --修改schema 存储路径 ALTER SCHEMA foo SET LOCATION
overwrite覆盖分区表数据的时候,覆盖了全量数据? 当您使用insert overwrite语句覆盖分区表的数据时,如果发现它覆盖了全量数据而不是预期的分区数据,这可能是因为动态分区覆盖功能没有被启用。 如果需要动态覆盖DataSource表指定的分区数据,您需要先配置参数 dli
怎样查看DLI的数据扫描量? 登录DLI管理控制台。 选择“作业管理 > SQL作业”。 筛选执行队列为default队列,查看相应的作业。 单击展开作业,查看已扫描的数据。如图1所示。 图1 查看作业扫描量 父主题: 计费相关问题