检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在相同的存储节点上。Hive支持HDFS的Colocation功能,即在创建Hive表时,设置表文件分布的locator信息,当使用insert语句向该表中插入数据时会将该表的数据文件存放在相同的存储节点上(不支持其他数据导入方式),从而使后续的多表关联的数据计算更加方便和高效。
于0.5:1。 cow表: cow表的原理是重写原始数据,因此这种表的调优,要兼顾dataSize和最后重写的文件数量。总体来说core数量越大越好(和最后重写多少个文件数直接相关),并行度p和内存大小和mor设置类似。 父主题: 使用Hudi
multiple storm.yaml resources。如下所示: 该错误是由于业务jar包中存在storm.yaml文件,和服务端的storm.yaml文件冲突导致的。 解决方法参考2。 如果不是上述原因,则请参考提交Storm拓扑失败,提示Failed to check principle
表达式过滤。 * 文件过滤器 配置通配符对源文件的输入文件名进行过滤。配置多个过滤条件时使用“,”隔开。不能配置为空。不支持正则表达式过滤。 * 编码类型 源文件的编码格式,如UTF-8。导入文本文件时才能配置。 UTF-8 后缀名 源文件导入成功后对输入文件增加的后缀值。该值为空,表示不加后缀。
请根据指导完成客户端的安装和配置。 准备本地应用开发环境 准备连接集群配置文件 应用程序开发或运行过程中,需通过集群相关配置文件信息连接MRS集群,配置文件通常包括集群组件信息文件以及用于安全认证的用户文件,可从已创建好的MRS集群中获取相关内容。 用于程序调测或运行的节点,需要
l/bin/easy_install。 使用对应的easy_install命令,安装dependency_python3.x文件夹下的egg文件,egg文件存在依赖关系,可使用通配符安装,如: “dependency_python3.6”目录: /usr/local/bin/easy_install
l/bin/easy_install。 使用对应的easy_install命令,安装dependency_python3.x文件夹下的egg文件,egg文件存在依赖关系,可使用通配符安装,如: “dependency_python3.6”目录: /usr/local/bin/easy_install
“LocalDir”:表示将备份文件保存在主管理节点的本地磁盘上,备管理节点将自动同步备份文件。 默认保存目录为“数据存放路径/LocalBackup/”,例如“/srv/BigData/LocalBackup”。 选择此参数值,还需要配置“最大备份数”,表示备份目录中可保留的备份文件集数量。 “L
准备连接集群配置文件 应用程序开发或运行过程中,需通过集群相关配置文件信息连接MRS集群,配置文件通常包括集群组件信息文件,可从已创建好的MRS集群中获取相关内容。 用于程序调测或运行的节点,需要与MRS集群内节点网络互通,同时配置hosts域名信息。 准备连接HBase集群配置文件 配置并导入样例工程
表达式过滤。 * 文件过滤器 配置通配符对源文件的输入文件名进行过滤。配置多个过滤条件时使用“,”隔开。不能配置为空。不支持正则表达式过滤。 * 编码类型 源文件的编码格式,如UTF-8。导入文本文件时才能配置。 UTF-8 后缀名 源文件导入成功后对输入文件增加的后缀值。该值为空,表示不加后缀。
ne UDF,大于5个入参的HetuEngine UDF将无法被注册。 需要将所有依赖文件都打包到jar包里。 (可选)若用户存在HetuEngine UDF依赖的配置文件,建议将其作为资源文件放在resources目录下,即可打包到HetuEngine UDF函数包中。 部署HetuEngine
根据客户端访问“flink.keystore”和“flink.truststore”文件的路径配置。 绝对路径:执行该脚本后,在“flink-conf.yaml”文件中将“flink.keystore”和“flink.truststore”文件的路径自动配置为绝对路径,此时需要将“conf”目录中的“flink
cutor。 原始CSV文件大小的最大值 200GB 17个cluster节点,每个executor 150GB,25个CPU核。Driver内存10 GB,17个Executor。 每个文件夹的CSV文件数 100个文件夹,每个文件夹10个文件,每个文件大小50MB。 3个节点
数如表2所示。在Spark客户端的配置文件“spark-defaults.conf”中进行配置。Driver、Executor、AM进程的日志级别在对应的JVM参数中的“-Dlog4j.configuration”参数指定的log4j配置文件中设置。 表2 进程的JVM参数1 参数
指定将在机器中的所有客户端创建的共享文件的本地目录。如果要为不同用户共享缓存,该文件夹应具有必需的权限(如在给定目录中创建,读写缓存文件)。 /tmp dfs.client.failover.activeinfo.share.io.timeout.sec 控制超时的可选配置。用于在读取或写入缓存文件时获取锁
et目录下即可生成“hetu-examples-XXX.jar”文件。 上传“hetu-examples-XXX.jar”文件到Linux节点“/opt/client”目录下。 参考准备运行环境下载并解压客户端文件“FusionInsight_Cluster_集群ID_ HetuEngine_Client
指定将在机器中的所有客户端创建的共享文件的本地目录。如果要为不同用户共享缓存,该文件夹应具有必需的权限(如在给定目录中创建,读写缓存文件)。 /tmp dfs.client.failover.activeinfo.share.io.timeout.sec 控制超时的可选配置。用于在读取或写入缓存文件时获取锁
数如表2所示。在Spark客户端的配置文件“spark-defaults.conf”中进行配置。Driver、Executor、AM进程的日志级别在对应的JVM参数中的“-Dlog4j.configuration”参数指定的log4j配置文件中设置。 表2 进程的JVM参数1 参数
动释放“/system/balancer.id”文件,可再次正常执行Balance。 但在上述场景中,由于第一次的Balance操作是被异常停止的,所以第二次进行Balance操作时,“/system/balancer.id”文件仍然存在,则会触发append /system/balancer
布隆过滤器消除了对外部系统的依赖,并存储在Parquet数据文件的页脚中。 BLOOM hoodie.index.bloom.num_entries 存储在布隆过滤器中的条目数。 假设maxParquetFileSize为128MB,averageRecordSize为1024B,因此,一个文件中的记录总数约为130K。