检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
并继续运行。该机制利用了Flink的checkpoint机制创建流应用的快照,并将快照的元数据(meta-data)写入到一个额外的持久化文件系统中。 如果需要使用savepoints的功能,强烈推荐用户为每个算子通过uid(String)分配一个固定的ID,以便将来升级恢复使用,示例代码如下:
multiple storm.yaml resources。如下所示: 该错误是由于业务jar包中存在storm.yaml文件,和服务端的storm.yaml文件冲突导致的。 解决方法参考2。 如果不是上述原因,则请参考提交Storm拓扑失败,提示Failed to check principle
使用Flume客户端加密工具 安装Flume客户端后,配置文件的部分参数可能需要填写加密的字符,Flume客户端中提供了加密工具。 安装Flume客户端。 登录安装Flume客户端的节点,并切换到客户端安装目录。例如“/opt/FlumeClient”。 切换到以下目录 cd f
在相同的存储节点上。Hive支持HDFS的Colocation功能,即在创建Hive表时,设置表文件分布的locator信息,当使用insert语句向该表中插入数据时会将该表的数据文件存放在相同的存储节点上(不支持其他数据导入方式),从而使后续的多表关联的数据计算更加方便和高效。
于0.5:1。 cow表: cow表的原理是重写原始数据,因此这种表的调优,要兼顾dataSize和最后重写的文件数量。总体来说core数量越大越好(和最后重写多少个文件数直接相关),并行度p和内存大小和mor设置类似。 父主题: 使用Hudi
回答 Impala默认将UDF对应的jar包缓存到“/tmp”目录下,由--local_library_dir配置项控制,“/tmp”目录下的文件保存一定时间后会被操作系统删除,导致Impala查询时出现缺类错误。 登录Manager界面,选择“集群 > 服务 > Impala > 配置
根据客户端访问“flink.keystore”和“flink.truststore”文件的路径配置。 绝对路径:执行该脚本后,在“flink-conf.yaml”文件中将“flink.keystore”和“flink.truststore”文件的路径自动配置为绝对路径,此时需要将“conf”目录中的“flink
cutor。 原始CSV文件大小的最大值 200GB 17个cluster节点,每个executor 150GB,25个CPU核。Driver内存10 GB,17个Executor。 每个文件夹的CSV文件数 100个文件夹,每个文件夹10个文件,每个文件大小50MB。 3个节点
数如表2所示。在Spark客户端的配置文件“spark-defaults.conf”中进行配置。Driver、Executor、AM进程的日志级别在对应的JVM参数中的“-Dlog4j.configuration”参数指定的log4j配置文件中设置。 表2 进程的JVM参数1 参数
指定将在机器中的所有客户端创建的共享文件的本地目录。如果要为不同用户共享缓存,该文件夹应具有必需的权限(如在给定目录中创建,读写缓存文件)。 /tmp dfs.client.failover.activeinfo.share.io.timeout.sec 控制超时的可选配置。用于在读取或写入缓存文件时获取锁
et目录下即可生成“hetu-examples-XXX.jar”文件。 上传“hetu-examples-XXX.jar”文件到Linux节点“/opt/client”目录下。 参考准备运行环境下载并解压客户端文件“FusionInsight_Cluster_集群ID_ HetuEngine_Client
指定将在机器中的所有客户端创建的共享文件的本地目录。如果要为不同用户共享缓存,该文件夹应具有必需的权限(如在给定目录中创建,读写缓存文件)。 /tmp dfs.client.failover.activeinfo.share.io.timeout.sec 控制超时的可选配置。用于在读取或写入缓存文件时获取锁
数如表2所示。在Spark客户端的配置文件“spark-defaults.conf”中进行配置。Driver、Executor、AM进程的日志级别在对应的JVM参数中的“-Dlog4j.configuration”参数指定的log4j配置文件中设置。 表2 进程的JVM参数1 参数
动释放“/system/balancer.id”文件,可再次正常执行Balance。 但在上述场景中,由于第一次的Balance操作是被异常停止的,所以第二次进行Balance操作时,“/system/balancer.id”文件仍然存在,则会触发append /system/balancer
FlinkSQL Connector开发规范 FlinkSQL ClickHouse表开发规则 FlinkSQL ClickHouse表开发建议 FlinkSQL Doris数据表开发规则 FlinkSQL Kafka表开发规则 FlinkSQL Kafka表开发建议 FlinkSQL
COM、user.keytab和krb5.conf为示例,实际操作时请联系管理员获取相应账号对应权限的keytab文件和krb5.conf文件,并将keytab文件和krb5.conf文件放入到样例代码中的conf目录,安全登录方法如下代码所示。 认证信息需要根据实际环境修改。 public
SparkSQL读取ORC表报错 问题现象 Hive创建ORC存储格式的表,用SparkSQL读取该表时报错: 原因分析 该问题为一个开源社区问题:https://issues.apache.org/jira/browse/HIVE-11102,使用开源的hive 1.2.1版本包就有可能触发此问题。
布隆过滤器消除了对外部系统的依赖,并存储在Parquet数据文件的页脚中。 BLOOM hoodie.index.bloom.num_entries 存储在布隆过滤器中的条目数。 假设maxParquetFileSize为128MB,averageRecordSize为1024B,因此,一个文件中的记录总数约为130K。
在“计算实例”页签,在待操作的实例所属租户所在行的“操作”列单击“配置”,进入“配置实例”页签,添加如下自定义参数。 表1 自定义参数 名称 值 参数文件 materialized.view.rewrite.enabled true coordinator.config.properties
集群服务配置参数章节。 客户端配置 直接在客户端中修改相应的配置文件。 HDFS客户端配置文件路径:客户端安装目录/HDFS/hadoop/etc/hadoop/hdfs-site.xml。 Yarn客户端配置文件路径:客户端安装目录/HDFS/hadoop/etc/hadoop/yarn-site