检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
调度Clustering:使用可插拔的Clustering策略创建Clustering计划。 识别符合Clustering条件的文件:根据所选的Clustering策略,调度逻辑将识别符合Clustering条件的文件。 根据特定条件对符合Clustering条件的文件进行分组。每个组的数据大小应为t
确认IDEA自动识别的依赖库以及建议的模块结构,默认即可,单击“Next”。 确认工程所用JDK,然后单击“Next”。 导入结束,单击“Finish”,IDEA主页显示导入的样例工程。 图17 导入结束 图18 已导入工程 导入样例工程依赖的Jar包。 如果通过开源镜像站方式获取的样例工程代码,在配置好Maven后,
确认IDEA自动识别的依赖库以及建议的模块结构,默认即可,单击“Next”。 确认工程所用JDK,然后单击“Next”。 导入结束,单击“Finish”,IDEA主页显示导入的样例工程。 图17 导入结束 图18 已导入工程 导入样例工程依赖的Jar包。 如果通过开源镜像站方式获取的样例工程代码,在配置好Maven后,
扩容成功后,可以在集群详情的“节点管理”页签查看集群的节点信息。 扩容包周期集群 登录MRS管理控制台。 选择“现有集群” ,选中一个运行中的集群并单击集群名称,进入集群信息页面。 选择“节点管理”页签,在需要扩容的节点组的“操作”列单击“扩容”,进入扩容集群页面。 只有运行中的集群才能进行扩容操作。
图4 Project Defaults 在打开的“Project Structure”页面中,选择“SDKs”,单击绿色加号添加JDK。 图5 添加JDK 在弹出的“Select Home Directory for JDK”窗口,选择对应的JDK目录,然后单击“OK”。 图6 选择JDK目录
'/user/hive_examples_data/employee_info.txt' INTO TABLE employees_info; 加载数据的实质是将数据复制到HDFS上指定表的目录下。 父主题: Hive JDBC访问样例程序
COMPRESSION 配置数据的压缩算法,这里的压缩是HFile中block级别的压缩。对于可以压缩的数据,配置压缩算法可以有效减少磁盘的IO,从而达到提高性能的目的。 说明: 并非所有数据都可以进行有效压缩。例如一张图片的数据,因为图片一般已经是压缩后的数据,所以压缩效果有限。常用的压缩算法是S
配置HFile中block块的大小,不同的block块大小,可以影响HBase读写数据的效率。越大的block块,配合压缩算法,压缩的效率就越好;但是由于HBase的读取数据是以block块为单位的,所以越大的block块,对于随机读的情况,性能可能会比较差。 如果要提升写入的性能,一般扩大到
如果集群详情页面没有“组件管理”页签,请先完成IAM用户同步(在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步)。 MRS 3.x及后续版本,登录FusionInsight Manager。然后选择“集群 > 待操作的集群名称 > 服务 > HDFS > 配置 > 全部配置”。
Impalad(Coordinator)角色的jvm内存要大于或等于Catalog角色的jvm内存 Impala的元数据存放在内存中,Impalad需要从Catalog同步全量元数据,要保证Impala的jvm内存大于Catalog的jvm内存,才可以容纳下这些元数据。 建表时分
创建FlinkServer作业写入数据至Kafka消息队列 本章节适用于MRS 3.1.2及之后的版本。 操作场景 本章节介绍Kafka作为source表或者sink表的DDL定义,以及创建表时使用的WITH参数和代码示例,并指导如何在FlinkServer作业管理页面操作。 本示例以安全模式Kafka为例。
如何在Hive自定义函数中操作本地文件 问题 在Hive自定义函数中需要操作本地文件,例如读取文件的内容,需要如何操作? 回答 默认情况下,可以在UDF中用文件的相对路径来操作文件,如下示例代码: public String evaluate(String text) { //
如何在Hive自定义函数中操作本地文件 问题 在Hive自定义函数中需要操作本地文件,例如读取文件的内容,需要如何操作? 回答 默认情况下,可以在UDF中用文件的相对路径来操作文件,如下示例代码: public String evaluate(String text) { //
给指定集群添加标签 功能介绍 为特定的集群添加一个tag。 一个集群上最多有20个标签,此接口为幂等接口。添加标签时,如果创建的标签已经存在(key相同),则覆盖。 接口约束 无 调用方法 请参见如何调用API。 URI POST /v1.1/{project_id}/clust
Sqoop如何连接MySQL 用户问题 Sqoop如何连接MySQL数据库。 处理步骤 在集群上安装客户端,查看客户端“sqoop/lib”目录下是否有MySQL驱动包。 在客户端目录下加载环境变量。 source bigdata_env 执行Kerberos用户认证。 如果集群
jar 可在Flink的客户端或者服务端安装路径的lib目录下获取。 使用Flink Jar提交SQL作业程序 FlinkServer REST API程序 flink-dist_*.jar flink-table_*.jar 可在Flink的客户端或者服务端安装路径的lib目录下获取。
employees_info; 加载数据的实质是将数据复制到HDFS上指定表的目录下。 “LOAD DATA LOCAL INPATH”命令可以完成从本地文件系统加载文件到Impala的需求,但是当指定“LOCAL”时,这里的路径指的是当前连接的“Impalad”的本地文件系统的路径。 父主题: 开发Impala应用
employees_info; 加载数据的实质是将数据复制到HDFS上指定表的目录下。 “LOAD DATA LOCAL INPATH”命令可以完成从本地文件系统加载文件到Impala的需求,但是当指定“LOCAL”时,这里的路径指的是当前连接的“Impalad”的本地文件系统的路径。 父主题: 开发Impala应用
employees_info; 加载数据的实质是将数据拷贝到HDFS上指定表的目录下。 “LOAD DATA LOCAL INPATH”命令可以完成从本地文件系统加载文件到Impala的需求,但是当指定“LOCAL”时,这里的路径指的是当前连接的“Impalad”的本地文件系统的路径。 父主题: 开发Impala应用
加载数据的实质是将数据拷贝到HDFS上指定表的目录下。 “LOAD DATA LOCAL INPATH”命令可以完成从本地文件系统加载文件到Hive的需求,但是当指定“LOCAL”时,这里的路径指的是当前连接的“HiveServer”的本地文件系统的路径,同时由于当前的“Hive