华为云用户手册

  • 问题 Hive创建超过3.2万分区的表,执行带有WHERE分区的条件查询时出现异常,且“metastore.log”中打印的异常信息包含以下信息: Caused by: java.io.IOException: Tried to send an out-of-range integer as a 2-byte value: 32970 at org.postgresql.core.PGStream.SendInteger2(PGStream.java:199) at org.postgresql.core.v3.QueryExecutorImpl.sendParse(QueryExecutorImpl.java:1330) at org.postgresql.core.v3.QueryExecutorImpl.sendOneQuery(QueryExecutorImpl.java:1601) at org.postgresql.core.v3.QueryExecutorImpl.sendParse(QueryExecutorImpl.java:1191) at org.postgresql.core.v3.QueryExecutorImpl.execute(QueryExecutorImpl.java:346)
  • 操作步骤 以下配置均可在客户端的“conf/flink-conf.yaml”配置文件中进行修改适配,默认已经是相对较优解,请谨慎修改,防止性能下降。 “taskmanager.network.netty.num-arenas”: 默认是“taskmanager.numberOfTaskSlots”,表示netty的域的数量。 “taskmanager.network.netty.server.numThreads”和“taskmanager.network.netty.client.numThreads”:默认是“taskmanager.numberOfTaskSlots”,表示netty的客户端和服务端的线程数目设置。 “taskmanager.network.netty.client.connectTimeoutSec”:默认是120s,表示taskmanager的客户端连接超时的时间。 “taskmanager.network.netty.sendReceiveBufferSize”:默认是系统缓冲区大小(cat /proc/sys/net/ipv4/tcp_[rw]mem) ,一般为4MB,表示netty的发送和接收的缓冲区大小。 “taskmanager.network.netty.transport”:默认为“nio”方式,表示netty的传输方式,有“nio”和“epoll”两种方式。
  • 功能介绍 AddDoublesUDF主要用来对两个及多个浮点数进行相加,在该样例中可以掌握如何编写和使用UDF。 一个普通UDF必须继承自“org.apache.hadoop.hive.ql.exec.UDF”。 一个普通UDF必须至少实现一个evaluate()方法,evaluate函数支持重载。 开发自定义函数需要在工程中添加“hive-exec-*.jar”依赖包,可从Hive服务的安装目录下获取,例如在“${BIGDATA_HOME}/components/ FusionInsight _HD_*/Hive/disaster/plugin/lib/”目录下获取。
  • 注意事项 表必须已经存在。 用户应属于数据加载组以执行数据加载操作。默认情况下,数据加载组被命名为“ficommon”。 CarbonData表不支持Overwrite。 源表和目标表的数据类型应该相同,否则原表中的数据将被视为Bad Records。 INSERT INTO命令不支持部分成功(partial success),如果存在Bad Records,该命令会失败。 在从源表插入数据到目标表的过程中,无法在源表中加载或更新数据。 若要在INSERT操作期间启用数据加载或更新,请将以下参数配置为“true”。 “carbon.insert.persist.enable”=“true” 默认上述参数配置为“false”。 启用该参数将降低INSERT操作的性能。
  • Hudi Cleaning操作说明 Cleaning用于清理不再需要的版本数据。 Hudi使用Cleaner后台作业,不断清除不需要的旧得版本的数据。通过配置hoodie.cleaner.policy和hoodie.cleaner.commits.retained可以使用不同的清理策略和保存的commit数量。 执行cleaning有两种方式: 同步clean由参数hoodie.clean.automatic控制,默认自动开启。 关闭同步clean: datasource写入时可以通过.option("hoodie.clean.automatic", "false")来关闭自动clean。 spark-sql写入时可以通过set hoodie.clean.automatic=false;来关闭自动clean。 异步clean可以使用spark-sql来执行。 更多clean相关参数请参考compaction&cleaning配置章节。 父主题: 数据管理维护
  • Grouping 语法简介: 当Group by语句带with rollup/cube选项时,Grouping才有意义。 CUBE生成的结果集显示了所选列中值的所有组合的聚合。 ROLLUP生成的结果集显示了所选列中值的某一层次结构的聚合。 Grouping:当用CUBE或ROLLUP运算符添加行时,附加的列输出值为1;当所添加的行不是由CUBE或ROLLUP产生时,附加列值为0。 例如,Hive中有一张表“table_test”,表结构如下所示: +----------------+-------------------+--+ | table_test.id | table_test.value | +----------------+-------------------+--+ | 1 | 10 | | 1 | 15 | | 2 | 20 | | 2 | 5 | | 2 | 13 | +----------------+-------------------+--+ 执行如下语句: select id,grouping(id),sum(value) from table_test group by id with rollup; 得到如下结果: +-------+-----------------+------+--+ | id | groupingresult | sum | +-------+-----------------+------+--+ | 1 | 0 | 25 | | NULL | 1 | 63 | | 2 | 0 | 38 | +-------+-----------------+------+--+
  • EXCEPT、INTERSECT 语法简介 EXCEPT返回两个结果集的差(即从左查询中返回右查询没有找到的所有非重复值)。 INTERSECT返回两个结果集的交集(即两个查询都返回的所有非重复值)。 例如,Hive中有两张表“test_table1”、“test_table2”。 “test_table1”表结构如下所示: +-----------------+--+ | test_table1.id | +-----------------+--+ | 1 | | 2 | | 3 | | 4 | +-----------------+--+ “test_table2”表结构如下所示: +-----------------+--+ | test_table2.id | +-----------------+--+ | 2 | | 3 | | 4 | | 5 | +-----------------+--+ 执行如下的EXCEPT语句: select id from test_table1 except select id from test_table2; 显示如下结果: +--------------+--+ | _alias_0.id | +--------------+--+ | 1 | +--------------+--+ 执行INTERSECT语句: select id from test_table1 intersect select id from test_table2; 显示如下结果: +--------------+--+ | _alias_0.id | +--------------+--+ | 2 | | 3 | | 4 | +--------------+--+
  • 注意事项 Flume可靠性保障措施有哪些? Source&Channel、Channel&Sink之间的事务机制。 Sink Processor支持配置failover、load_blance机制,例如负载均衡示例如下,详细参考http://flume.apache.org/releases/1.9.0.html。 server.sinkgroups=g1 server.sinkgroups.g1.sinks=k1 k2 server.sinkgroups.g1.processor.type=load_balance server.sinkgroups.g1.processor.backoff=true server.sinkgroups.g1.processor.selector=random Flume多agent聚合级联时的注意事项? 级联时需要使用Avro或者Thrift协议进行级联。 聚合端存在多个节点时,连接配置尽量配置均衡,不要聚合到单节点上。
  • 常用Sink配置 HDFS Sink HDFS Sink将数据写入Hadoop分布式文件系统(HDFS)。常用配置如下表所示: 表10 HDFS Sink常用配置 参数 默认值 描述 channel - 与之相连的channel。 type hdfs hdfs sink的类型,必须设置为hdfs。 hdfs.path - HDFS上数据存储路径,必须以“hdfs://hacluster/”开头。 monTime 0(不开启) 线程监控阈值,更新时间超过阈值后,重新启动该Sink,单位:秒。 hdfs.inUseSuffix .tmp 正在写入的hdfs文件后缀。 hdfs.rollInterval 30 按时间滚动文件,单位:秒,同时需将“hdfs.fileCloseByEndEvent”设置为“false”。 hdfs.rollSize 1024 按大小滚动文件,单位:bytes,同时需将“hdfs.fileCloseByEndEvent”设置为“false”。 hdfs.rollCount 10 按Event个数滚动文件,同时需将“hdfs.fileCloseByEndEvent”设置为“false”。 说明: 参数“rollInterval”、“rollSize”和“rollCount”可同时配置,三个参数采取优先原则,哪个参数值先满足,优先按照哪个参数进行压缩。 hdfs.idleTimeout 0 自动关闭空闲文件超时时间,单位:秒。 hdfs.batchSize 1000 批次写入HDFS的Event个数。 hdfs.kerberosPrincipal - 认证HDFS的Kerberos principal,普通模式集群不配置,安全模式集群必须配置。 hdfs.kerberosKeytab - 认证HDFS的Kerberos keytab,普通模式集群不配置,安全模式集群中,用户必须对jaas.cof文件中的keyTab路径有访问权限。 hdfs.fileCloseByEndEvent true 收到源文件的最后一个Event时是否关闭hdfs文件。 hdfs.batchCallTimeout - 批次写入HDFS超时控制时间,单位:毫秒。 当不配置此参数时,对每个Event写入HDFS进行超时控制。当“hdfs.batchSize”大于0时,配置此参数可以提升写入HDFS性能。 说明: “hdfs.batchCallTimeout”设置多长时间需要考虑“hdfs.batchSize”的大小,“hdfs.batchSize”越大,“hdfs.batchCallTimeout”也要调整更长时间,设置过短时间容易导致写HDFS失败。 serializer.appendNewline true 将一个Event写入HDFS后是否追加换行符('\n'),如果追加该换行符,该换行符所占用的数据量指标不会被HDFS Sink统计。 hdfs.filePrefix over_%{basename} 数据写入hdfs后文件名的前缀。 hdfs.fileSuffix - 数据写入hdfs后文件名的后缀。 hdfs.inUsePrefix - 正在写入的hdfs文件前缀。 hdfs.fileType DataStream hdfs文件格式,包括“SequenceFile”、“DataStream”以及“CompressedStream”。 说明: “SequenceFile”和“DataStream”不压缩输出文件,不能设置参数“codeC”,“CompressedStream”压缩输出文件,必须设置“codeC”参数值配合使用。 hdfs.codeC - 文件压缩格式,包括gzip、bzip2、lzo、lzop、snappy。 hdfs.maxOpenFiles 5000 最大允许打开的hdfs文件数,当打开的文件数达到该值时,最早打开的文件将会被关闭。 hdfs.writeFormat Writable 文件写入格式,“Writable”或者“Text”。 hdfs.callTimeout 10000 写入HDFS超时控制时间,单位:毫秒。 hdfs.threadsPoolSize - 每个HDFS sink用于HDFS io操作的线程数。 hdfs.rollTimerPoolSize - 每个HDFS sink用于调度定时文件滚动的线程数。 hdfs.round false 时间戳是否四舍五入。若设置为true,则会影响所有基于时间的转义序列(%t除外)。 hdfs.roundUnit second 时间戳四舍五入单位,可选为“second”、“minute”或“hour”,分别对应为秒、分钟和小时。 hdfs.useLocalTimeStamp true 是否启用本地时间戳,建议设置为“true”。 hdfs.closeTries 0 hdfs sink尝试关闭重命名文件的最大次数。默认为0表示sink会一直尝试重命名,直至重命名成功。 hdfs.retryInterval 180 尝试关闭hdfs文件的时间间隔,单位:秒。 说明: 每个关闭请求都会有多个RPC往返Namenode,因此设置的太低可能导致Namenode超负荷。如果设置0,如果第一次尝试失败的话,该Sink将不会尝试关闭文件,并且把文件打开,或者用“.tmp”作为扩展名。 hdfs.failcount 10 数据写入hdfs失败的次数。该参数作为sink写入hdfs失败次数的阈值,当超过该阈值后上报数据传输异常告警。 Avro Sink Avro Sink把events转化为Avro events并发送到配置的主机的监测端口。常用配置如下表所示: 表11 Avro Sink常用配置 参数 默认值 描述 channel - 与之相连的channel。 type - avro sink的类型,必须设置为avro。 hostname - 绑定的主机名/IP。 port - 监测端口,该端口需未被占用。 batch-size 1000 批次发送的Event个数。 client.type DEFAULT 客户端实例类型,根据所配置的模型实际使用到的通信协议设置。该值可选值包括: DEFAULT,返回AvroRPC类型的客户端实例。 OTHER,返回NULL。 THRIFT,返回Thrift RPC类型的客户端实例。 DEFAULT_LOADBALANCING, 返回LoadBalancing RPC 客户端实例。 DEFAULT_FAILOVER, 返回Failover RPC 客户端实例。 ssl false 是否使用SSL加密。设置为true时还必须指定“密钥(keystore)”和“密钥存储密码(keystore-password)”。 truststore-type JKS Java信任库类型,“JKS”或“PK CS 12”。 说明: JKS的密钥库和私钥采用不同的密码进行保护,而PKCS12的密钥库和私钥采用相同密码进行保护。 truststore - Java信任库文件。 truststore-password - Java信任库密码。 keystore-type JKS ssl启用后密钥存储类型。 keystore - ssl启用后密钥存储文件路径,开启ssl后,该参数必填。 keystore-password - ssl启用后密钥存储密码,开启ssl后,该参数必填。 connect-timeout 20000 第一次连接的超时时间,单位:毫秒。 request-timeout 20000 第一次请求后一次请求的最大超时时间,单位:毫秒。 reset-connection-interval 0 一次断开连接后,等待多少时间后进行重新连接,单位:秒。默认为0表示不断尝试。 compression-type none 批数据压缩类型,“none”或“deflate”,“none”表示不压缩,“deflate”表示压缩。该值必须与AvroSource的compression-type匹配。 compression-level 6 批数据压缩级别(1-9),数值越高,压缩率越高。 exclude-protocols SSLv3 排除的协议列表,用空格分开。默认排除SSLv3协议。 HBase Sink HBase Sink将数据写入到HBase中。常用配置如下表所示: 表12 HBase Sink常用配置 参数 默认值 描述 channel - 与之相连的channel。 type - hbase sink的类型,必须设置为hbase。 table - HBase表名称。 columnFamily - HBase列族。 monTime 0(不开启) 线程监控阈值,更新时间超过阈值后,重新启动该Sink,单位:秒。 batchSize 1000 批次写入HBase的Event个数。 kerberosPrincipal - 认证HBase的Kerberos principal,普通模式集群不配置,安全模式集群必须配置。 kerberosKeytab - 认证HBase的Kerberos keytab,普通模式集群不配置,安全模式集群中,flume运行用户必须对jaas.cof文件中的keyTab路径有访问权限。 coalesceIncrements true 是否在同一个处理批次中,合并对同一个hbase cell多个操作。设置为true有利于提高性能。 Kafka Sink Kafka Sink将数据写入到Kafka中。常用配置如下表所示: 表13 Kafka Sink常用配置 参数 默认值 描述 channel - 与之相连的channel。 type - kafka sink的类型,必须设置为org.apache.flume.sink.kafka.KafkaSink。 kafka.bootstrap.servers - Kafka 的bootstrap 地址端口列表。如果集群安装有kafka并且配置已经同步,服务端可以不配置此项,默认值为Kafka集群中所有的broker列表,客户端必须配置该项,多个用逗号分隔。端口和安全协议的匹配规则必须为:21007匹配安全模式(SASL_PLAINTEXT),9092匹配普通模式(PLAINTEXT)。 monTime 0(不开启) 线程监控阈值,更新时间超过阈值后,重新启动该Sink,单位:秒。 kafka.producer.acks 1 必须收到多少个replicas的确认信息才认为写入成功。0表示不需要接收确认信息,1表示只等待leader的确认信息。-1表示等待所有的relicas的确认信息。设置为-1,在某些leader失败的场景中可以避免数据丢失。 kafka.topic - 数据写入的topic,必须填写。 flumeBatchSize 1000 批次写入Kafka的Event个数。 kafka.security.protocol SASL_PLAINTEXT Kafka安全协议,普通模式集群下须配置为“PLAINTEXT”。端口和安全协议的匹配规则必须为:21007匹配安全模式(SASL_PLAINTEXT),9092匹配普通模式(PLAINTEXT)。 ignoreLongMessage false 是否丢弃超大消息的开关。 messageMaxLength 1000012 Flume写入Kafka的消息的最大长度。 defaultPartitionId - 用于指定channel中的events被传输到哪一个Kafka partition ID ,此值会被partitionIdHeader覆盖。默认情况下,如果此参数不设置,会由Kafka Producer's partitioner 进行events分发(可以通过指定key或者kafka.partitioner.class自定义的partitioner)。 partitionIdHeader - 设置时,对应的Sink 将从Event 的Header中获取使用此属性的值命名的字段的值,并将消息发送到主题的指定分区。 如果该值无对应的有效分区,则会发生EventDeliveryException。 如果Header 值已经存在,则此设置将覆盖参数defaultPartitionId。 Other Kafka Producer Properties - 其他Kafka配置,可以接受任意Kafka支持的生产配置,配置需要加前缀 .kafka。 Thrift Sink Thrift Sink把events转化为Thrift events并发送到配置的主机的监测端口。常用配置如下表所示: 表14 Thrift Sink常用配置 参数 默认值 描述 channel - 与之相连的channel。 type thrift thrift sink的类型,必须设置为thrift。 hostname - 绑定的主机名/IP。 port - 监测端口,该端口需未被占用。 batch-size 1000 批次发送的Event个数。 connect-timeout 20000 第一次连接的超时时间,单位:毫秒。 request-timeout 20000 第一次请求后一次请求的最大超时时间,单位:毫秒。 kerberos false 是否启用Kerberos认证。 client-keytab - 客户端使用的keytab文件地址,flume运行用户必须对认证文件具有访问权限。 client-principal - 客户端使用的安全用户的Principal。 server-principal - 服务端使用的安全用户的Principal。 compression-type none Flume发送数据的压缩类型,“none”或“deflate”,“none”表示不压缩,“deflate”表示压缩。 maxConnections 5 Flume发送数据时的最大连接池大小。 ssl false 是否使用SSL加密。 truststore-type JKS Java信任库类型。 truststore - Java信任库文件。 truststore-password - Java信任库密码。 reset-connection-interval 0 一次断开连接后,等待多少时间后进行重新连接,单位:秒。默认为0表示不断尝试。
  • 常用Channel配置 Memory Channel Memory Channel使用内存作为缓存区,Events存放在内存队列中。常用配置如下表所示: 表6 Memory Channel常用配置 参数 默认值 描述 type - memory channel的类型,必须设置为memory。 capacity 10000 缓存在channel中的最大Event数。 transactionCapacity 1000 每次存取的最大Event数。 说明: 此参数值需要大于source和sink的batchSize。 事务缓存容量必须小于或等于Channel缓存容量。 channelfullcount 10 channel full次数,达到该次数后发送告警。 keep-alive 3 当事务缓存或Channel缓存满时,Put、Take线程等待时间。单位:秒。 byteCapacity JVM最大内存的80% channel中最多能容纳所有event body的总字节数,默认是 JVM最大可用内存(-Xmx )的80%,单位:bytes。 byteCapacityBufferPercentage 20 channel中字节容量百分比(%)。 File Channel File Channel使用本地磁盘作为缓存区,Events存放在设置的dataDirs配置项文件夹中。常用配置如下表所示: 表7 File Channel常用配置 参数 默认值 描述 type - file channel的类型,必须设置为file。 checkpointDir ${BIGDATA_DATA_HOME}/hadoop/data1~N/flume/checkpoint 说明: 此路径随自定义数据路径变更。 检查点存放路径。 dataDirs ${BIGDATA_DATA_HOME}/hadoop/data1~N/flume/data 说明: 此路径随自定义数据路径变更。 数据缓存路径,设置多个路径可提升性能,中间用逗号分开。 maxFileSize 2146435071 单个缓存文件的最大值,单位:bytes。 minimumRequiredSpace 524288000 缓冲区空闲空间最小值,单位:bytes。 capacity 1000000 缓存在channel中的最大Event数。 transactionCapacity 10000 每次存取的最大Event数。 说明: 此参数值需要大于source和sink的batchSize。 事务缓存容量必须小于或等于Channel缓存容量。 channelfullcount 10 channel full次数,达到该次数后发送告警。 useDualCheckpoints false 是否备份检查点。设置为“true”时,必须设置backupCheckpointDir的参数值。 backupCheckpointDir - 备份检查点路径。 checkpointInterval 30000 检查点间隔时间,单位:秒。 keep-alive 3 当事务缓存或Channel缓存满时,Put、Take线程等待时间。单位:秒。 use-log-replay-v1 false 是否启用旧的回复逻辑。 use-fast-replay false 是否使用队列回复。 checkpointOnClose true channel关闭时是否创建检查点。 Memory File Channel Memory File Channel同时使用内存和本地磁盘作为缓存区,消息可持久化,性能优于File Channel,接近Memory Channel的性能。此Channel目前处于试验阶段,可靠性不够高,不建议在生产环境使用。常用配置如下表所示: 表8 Memory File Channel常用配置 参数 默认值 描述 type org.apache.flume.channel.MemoryFileChannel memory file channel的类型,必须设置为“org.apache.flume.channel.MemoryFileChannel”。 capacity 50000 Channel缓存容量:缓存在Channel中的最大Event数。 transactionCapacity 5000 事务缓存容量:一次事务能处理的最大Event数。 说明: 此参数值需要大于source和sink的batchSize。 事务缓存容量必须小于或等于Channel缓存容量。 subqueueByteCapacity 20971520 每个subqueue最多保存多少byte的Event,单位:byte。 Memory File Channel采用queue和subqueue两级缓存,event保存在subqueue,subqueue保存在queue。 subqueue能保存多少event,由“subqueueCapacity”和“subqueueInterval”两个参数决定,“subqueueCapacity”限制subqueue内的Event总容量,“subqueueInterval”限制subqueue保存Event的时长,只有subqueue达到“subqueueCapacity”或“subqueueInterval”上限时,subqueue内的Event才会发往目的地。 说明: “subqueueByteCapacity”必须大于一个batchsize内的Event总容量。 subqueueInterval 2000 每个subqueue最多保存一段多长时间的Event,单位:毫秒。 keep-alive 3 当事务缓存或Channel缓存满时,Put、Take线程等待时间。 单位:秒。 dataDir - 缓存本地文件存储目录。 byteCapacity JVM最大内存的80% Channel缓存容量。 单位:bytes。 compression-type None 消息压缩格式:“none”或“deflate”。“none”表示不压缩,“deflate”表示压缩。 channelfullcount 10 channel full次数,达到该次数后发送告警。 Memory File Channel配置样例: server.channels.c1.type = org.apache.flume.channel.MemoryFileChannel server.channels.c1.dataDir = /opt/flume/mfdata server.channels.c1.subqueueByteCapacity = 20971520 server.channels.c1.subqueueInterval=2000 server.channels.c1.capacity = 500000 server.channels.c1.transactionCapacity = 40000 Kafka Channel Kafka Channel使用Kafka集群缓存数据,Kafka提供高可用、多副本,以防Flume或Kafka Broker崩溃,Channel中的数据会立即被Sink消费。 表9 Kafka channel 常用配置 Parameter Default Value Description type - kafka channel的类型,必须设置为 “org.apache.flume.channel.kafka.KafkaChannel”。 kafka.bootstrap.servers - Kafka的bootstrap地址端口列表。 如果集群已安装Kafka并且配置已经同步,则服务端可以不配置此项,默认值为Kafka集群中所有的broker列表。客户端必须配置该项,多个值用逗号分隔。端口和安全协议的匹配规则必须为:21007匹配安全模式(SASL_PLAINTEXT),9092匹配普通模式(PLAINTEXT)。 kafka.topic flume-channel channel用来缓存数据的topic。 kafka.consumer.group.id flume 从kafka中获取数据的组标识,此参数不能为空。 parseAsFlumeEvent true 是否解析为Flume event。 migrateZookeeperOffsets true 当Kafka没有存储offset时,是否从ZooKeeper中查找,并提交到Kafka。 kafka.consumer.auto.offset.reset latest 当没有offset记录时从什么位置消费,可选为“earliest”、“latest”或“none”。“earliest”表示将offset重置为初始点,“latest”表示将offset置为最新位置点,“none”表示若没有offset则发生异常。 kafka.producer.security.protocol SASL_PLAINTEXT Kafka生产安全协议。端口和安全协议的匹配规则必须为:21007匹配安全模式(SASL_PLAINTEXT),9092匹配普通模式(PLAINTEXT)。 说明: 若该参数没有显示,请单击弹窗左下角的"+"显示全部参数。 kafka.consumer.security.protocol SASL_PLAINTEXT 同上,但用于消费。端口和安全协议的匹配规则必须为:21007匹配安全模式(SASL_PLAINTEXT),9092匹配普通模式(PLAINTEXT)。 pollTimeout 500 consumer调用poll()函数能接受的最大超时时间,单位:毫秒。 ignoreLongMessage false 是否丢弃超大消息。 messageMaxLength 1000012 Flume写入Kafka的消息的最大长度。
  • 操作步骤 进入Flume客户端日志目录,默认为“/var/log/Bigdata”。 执行如下命令查看日志文件列表。 ls -lR flume-client-* 日志文件示例如下: flume-client-1/flume: total 7672 -rw-------. 1 root root 0 Sep 8 19:43 Flume-audit.log -rw-------. 1 root root 1562037 Sep 11 06:05 FlumeClient.2017-09-11_04-05-09.[1].log.zip -rw-------. 1 root root 6127274 Sep 11 14:47 FlumeClient.log -rw-------. 1 root root 2935 Sep 8 22:20 flume-root-20170908202009-pid72456-gc.log.0.current -rw-------. 1 root root 2935 Sep 8 22:27 flume-root-20170908202634-pid78789-gc.log.0.current -rw-------. 1 root root 4382 Sep 8 22:47 flume-root-20170908203137-pid84925-gc.log.0.current -rw-------. 1 root root 4390 Sep 8 23:46 flume-root-20170908204918-pid103920-gc.log.0.current -rw-------. 1 root root 3196 Sep 9 10:12 flume-root-20170908215351-pid44372-gc.log.0.current -rw-------. 1 root root 2935 Sep 9 10:13 flume-root-20170909101233-pid55119-gc.log.0.current -rw-------. 1 root root 6441 Sep 9 11:10 flume-root-20170909101631-pid59301-gc.log.0.current -rw-------. 1 root root 0 Sep 9 11:10 flume-root-20170909111009-pid119477-gc.log.0.current -rw-------. 1 root root 92896 Sep 11 13:24 flume-root-20170909111126-pid120689-gc.log.0.current -rw-------. 1 root root 5588 Sep 11 14:46 flume-root-20170911132445-pid42259-gc.log.0.current -rw-------. 1 root root 2576 Sep 11 13:24 prestartDetail.log -rw-------. 1 root root 3303 Sep 11 13:24 startDetail.log -rw-------. 1 root root 1253 Sep 11 13:24 stopDetail.log flume-client-1/monitor: total 8 -rw-------. 1 root root 141 Sep 8 19:43 flumeMonitorChecker.log -rw-------. 1 root root 2946 Sep 11 13:24 flumeMonitor.log 其中FlumeClient.log即为Flume客户端的运行日志。
  • 配置描述 参数入口: 参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面,在搜索框中输入参数名称“mapreduce.job.am.memory.policy”。 配置说明: 配置项的默认值为空,此时不会启动自动调整的策略,ApplicationMaster的内存仍受“yarn.app.mapreduce.am.resource.mb”配置项的影响。 配置参数的值由5个数值组成,中间使用“:”与“,”分隔,格式为:baseTaskCount:taskStep:memoryStep,minMemory:maxMemory,在键入时会严格校验格式。 表1 配置数值说明 数值名称 描述 设定要求 baseTaskCount 任务总量基数,只有当应用的task总数(map端与reduce端之和)不小于该值时配置才会起作用。 不能为空且大于零。 taskStep 任务增量步进,与memoryStep共同决定内存调整量。 不能为空且大于零。 memoryStep 内存增量步进,在“yarn.app.mapreduce.am.resource.mb”配置的基础上对内存向上调整。 不能为空且大于零,单位:MB。 minMemory 内存自动调整下限,若调整后的内存不大于该值,仍保持“yarn.app.mapreduce.am.resource.mb”的配置。 不能为空且大于零,且不大于maxMemory的设定值。 单位:MB maxMemory 内存自动调整上限,若调整后的内存超过该值,则使用该值作为最终调整值。 不能为空且大于零,且不小于minMemory的设定值。 单位:MB
  • Pipeline 适用于 MRS 3.x及之后版本。 表13 Pipeline参数说明 参数 描述 默认值 是否必选 nettyconnector.registerserver.topic.storage 设置NettySink的IP、端口及并发度信息在第三方注册服务器上的路径。建议用户使用ZooKeeper进行存储。 /flink/nettyconnector 否,当使用pipeline特性为必选 nettyconnector.sinkserver.port.range 设置NettySink的端口范围。 28444-28843 否,当使用pipeline特性为必选 nettyconnector.ssl.enabled 设置NettySink与NettySource之间通信是否配置SSL加密。其中加密密钥以及加密协议等请参见SSL。 false 否,当使用pipeline特性为必选 nettyconnector.message.delimiter 用来配置nettysink发送给nettysource消息的分隔符,长度为2-4个字节,不可包含“\n”, “ ”, “#” 。 默认使用“$_” 否,当使用pipeline特性为必选
  • Yarn 表12 Yarn参数说明 参数 描述 默认值 是否必选 yarn.maximum-failed-containers 当TaskManager所属容器出错后,重新申请container次数。默认值为Flink集群启动时TaskManager的数量。 5 否 yarn.application-attempts Application master重启次数,次数是算在一个validity interval的最大次数,validity interval在flink中设置为akka的timeout。重启后AM的地址和端口会变化,client需要手动连接。 2 否 yarn.heartbeat-delay Application Master和YARN Resource Manager心跳的时间间隔。单位:seconds 5 否 yarn.containers.vcores 每个Yarn容器的虚拟核数。 TaskManager的slot数 否 yarn.application-master.port Application Master端口号设置,支持端口范围。 32586-32650 否
  • State Backend 表8 State Backend参数说明 参数 描述 默认值 是否必选 state.backend.fs.checkpointdir 当backend为filesystem时的路径,路径必须能够被JobManager访问到,本地路径只支持local模式,集群模式下请使用HDFS路径。 hdfs:///flink/checkpoints 否 state.savepoints.dir Flink用于恢复和更新作业的保存点存储目录。当触发保存点的时候,保存点元数据信息将会保存到该目录中。 hdfs:///flink/savepoint 安全模式下必配 restart-strategy 默认重启策略,用于未指定重启策略的作业: fixed-delay failure-rate none none 否 restart-strategy.fixed-delay.attempts fixed-delay策略重试次数。 作业中开启了checkpoint,默认值为Integer.MAX_VALUE。 作业中未开启checkpoint,默认值为3。 否 restart-strategy.fixed-delay.delay fixed-delay策略重试间隔时间。单位:ms/s/m/h/d。 作业中开启了checkpoint,默认值是10 s。 作业中未开启checkpoint,默认值和配置项akka.ask.timeout的值一致。 否 restart-strategy.failure-rate.max-failures-per-interval 故障率策略下作业失败前给定时间段内的最大重启次数。 1 否 restart-strategy.failure-rate.failure-rate-interval failure-rate策略重试时间。单位:ms/s/m/h/d。 60 s 否 restart-strategy.failure-rate.delay failure-rate策略重试间隔时间。单位:ms/s/m/h/d。 默认值和akka.ask.timeout配置值一样。可参考Distributed Coordination (via Akka)。 否
  • Kerberos-based Security 表9 Kerberos-based Security参数说明 参数 描述 默认值 是否必选 security.kerberos.login.keytab 该参数为客户端参数,keytab路径。 根据实际业务配置 是 security.kerberos.login.principal 该参数为客户端参数,如果keytab和principal都设置,默认会使用keytab认证。 根据实际业务配置 否 security.kerberos.login.contexts 该参数为服务器端参数,flink生成jass文件的contexts。 Client、KafkaClient 是
  • HA 表10 HA参数说明 参数 描述 默认值 是否必选 high-availability HA模式,是启用HA还是非HA模式。当前支持两种模式: none,只运行单个jobManager,jobManager的状态不进行Checkpoint。 ZooKeeper。 非YARN模式下,支持多个jobManager,通过选举产生leader。 YARN模式下只存在一个jobManager。 zookeeper 否 high-availability.zookeeper.quorum ZooKeeper quorum地址。 自动配置 否 high-availability.zookeeper.path.root Flink在ZooKeeper上创建的根目录,存放HA模式必须的元数据。 /flink 否 high-availability.storageDir 存放state backend中JobManager元数据,ZooKeeper只保存实际数据的指针。 hdfs:///flink/recovery 否 high-availability.zookeeper.client.session-timeout ZooKeeper客户端会话超时时间。单位:ms。 60000 否 high-availability.zookeeper.client.connection-timeout ZooKeeper客户端连接超时时间。单位:ms。 15000 否 high-availability.zookeeper.client.retry-wait ZooKeeper客户端重试等待时间。单位:ms。 5000 否 high-availability.zookeeper.client.max-retry-attempts ZooKeeper客户端最大重试次数。 3 否 high-availability.job.delay 当jobManager恢复后重启job的延迟时间。 仅适用于MRS 3.x及之后版本。 默认值和akka.ask.timeout配置值保持一致 否 high-availability.zookeeper.client.acl 设置ZooKeeper节点的ACL (open creator),按照集群的安全模式自动配置。设置ACL选项请参考:https://zookeeper.apache.org/doc/r3.5.1-alpha/zookeeperProgrammers.html#sc_BuiltinACLSchemes。 安全模式:creator 非安全模式:open 是 zookeeper.sasl.disable 基于SASL认证的使能开关,按照集群的安全模式自动配置:。 安全模式:false 非安全模式:true 是 zookeeper.sasl.service-name 如果ZooKeeper服务端配置了不同于“ZooKeeper”的服务名,可以设置此配置项。 如果客户端和服务端的服务名不一致,认证会失败。 zookeeper 是
  • File Systems 表7 File Systems参数说明 参数 描述 默认值 是否必选 fs.overwrite-files 文件输出写操作是否默认覆盖已有文件。 false 否 fs.output.always-create-directory 当文件写入程序的并行度大于1时,输出文件的路径下会创建一个目录,并将不同的结果文件(每个并行写程序任务)放入该目录。 设置为true,那么并行度为1的写入程序也将创建一个目录并将一个结果文件放入其中。 设置为false,则并行度为1的写入程序将直接在输出路径中创建文件,而不再创建目录。 false 否
  • JobManager Web Frontend 表6 JobManager Web Frontend参数说明 参数 描述 默认值 是否必选 备注 jobmanager.web.port web端口,支持范围:32261-32325。 32261-32325 否 仅MRS 3.x之前版本 jobmanager.web.allow-access-address web访问白名单,ip以逗号隔开。只有在白名单中的ip才能访问web。 * 是 适用于所有版本 flink.security.enable 用户安装Flink集群时,需要选择“安全模式”或“普通模式”。 当选择“安全模式”,自动配置为“true”。 当选择“普通模式”,自动配置为“false”。 对于已经安装好的Flink集群,用户可以通过查看配置的值来区分当前安装的是安全模式还是普通模式。 自动配置 否 仅MRS 3.x及之后版本 rest.bind-port web端口,支持范围:32261-32325。 32261-32325 否 jobmanager.web.history 显示“flink.security.enable”最近的job数目。 5 否 jobmanager.web.checkpoints.disable 禁用checkpoint统计。 false 否 jobmanager.web.checkpoints.history Checkpoint统计记录数。 10 否 jobmanager.web.backpressure.cleanup-interval 未访问反压记录清理周期。单位:ms。 600000 否 jobmanager.web.backpressure.refresh-interval 反压记录刷新周期。单位:ms。 60000 否 jobmanager.web.backpressure.num-samples 计算反压使用的堆栈跟踪记录数。 100 否 jobmanager.web.backpressure.delay-between-samples 计算反压的采样间隔。单位:ms 50 否 jobmanager.web.ssl.enabled web是否使用SSL加密传输,仅在全局开关security.ssl开启时有。 false 是 jobmanager.web.accesslog.enable web操作日志使能开关,日志会存放在webaccess.log中。 true 是 jobmanager.web.x-frame-options http安全头X-Frame-Options的值,可选范围为:SAMEORIGIN、DENY、ALLOW-FROM uri。 DENY 是 jobmanager.web.cache-directive web页面是否支持缓存。 no-store:所有内容都不会被保存到缓存 是 jobmanager.web.expires-time web页面缓存过期时长。单位:ms。 0 是 jobmanager.web.access-control-allow-origin 网页同源策略,防止跨域攻击。*表示允许任意网站跨域访问该服务端口,可配置为指定网址。 *(非安全集群) 是 jobmanager.web.refresh-interval web网页刷新时间。单位:ms。 3000 是 jobmanager.web.logout-timer 配置无操作情况下自动登出时间间隔。单位:ms。 600000 是 jobmanager.web.403-redirect-url web403页面,访问若遇到403错误,则会重定向到配置的页面。 自动配置 是 jobmanager.web.404-redirect-url web404页面,访问若遇到404错误,则会重定向到配置的页面。 自动配置 是 jobmanager.web.415-redirect-url web415页面,访问若遇到415错误,则会重定向到配置的页面。 自动配置 是 jobmanager.web.500-redirect-url web500页面,访问若遇到500错误,则会重定向到配置的页面。 自动配置 是 rest.await-leader-timeout 客户端等待Leader地址的时间(以ms为单位)。 30000 否 rest.client.max-content-length 客户端处理的最大内容长度(以字节为单位)。 104857600 否 rest.connection-timeout 客户端建立TCP连接的最长时间(以ms为单位)。 15000 否 rest.idleness-timeout 连接保持空闲状态的最长时间(以ms为单位)。 300000 否 rest.retry.delay 客户端在连续重试之间等待的时间(以ms为单位)。 3000 否 rest.retry.max-attempts 如果可重试算子操作失败,客户端将尝试重试的次数。 20 否 rest.server.max-content-length 服务端处理的最大内容长度(以字节为单位)。 104857600 否 rest.server.numThreads 异步处理请求的最大线程数。 4 否 web.timeout web监控超时时间(以ms为单位)。 10000 否
  • Network communication (via Netty) 表5 Network communication参数说明 参数 描述 默认值 是否必选 taskmanager.network.netty.num-arenas Netty内存块数。 1 否 taskmanager.network.netty.server.numThreads Netty服务器线程的数量。 1 否 taskmanager.network.netty.client.numThreads Netty客户端线程数。 1 否 taskmanager.network.netty.client.connectTimeoutSec Netty客户端连接超时。单位:s。 120 否 taskmanager.network.netty.sendReceiveBufferSize Netty发送和接收缓冲区大小。 默认为系统缓冲区大小(cat / proc / sys / net / ipv4 / tcp_ [rw] mem),在现代Linux中为4MB。单位:bytes。 4096 否 taskmanager.network.netty.transport Netty传输类型,“nio”或“epoll”。 nio 否
  • SSL 表4 SSL参数说明 参数 描述 默认值 是否必选 备注 security.ssl.internal.enabled 内部通信SSL总开关,按照集群的安全模式自动配置。 安全模式:true 普通模式:false 是 仅MRS 3.x之前版本 security.ssl.internal.keystore Java keystore文件。 - 是 security.ssl.internal.keystore-password keystore文件解密密码。 - 是 security.ssl.internal.key-password keystore文件中服务端key的解密密码。 - 是 security.ssl.internal.truststore truststore文件包含公共CA证书。 - 是 security.ssl.internal.truststore-password truststore文件解密密码。 - 是 security.ssl.rest.enabled 外部通信SSL总开关,按照集群的安全模式自动配置。 安全模式:true 普通模式:false 是 security.ssl.rest.keystore Java keystore文件。 - 是 security.ssl.rest.keystore-password keystore文件解密密码。 - 是 security.ssl.rest.key-password keystore文件中服务端key的解密密码。 - 是 security.ssl.rest.truststore truststore文件包含公共CA证书。 - 是 security.ssl.rest.truststore-password truststore文件解密密码。 - 是 security.ssl.protocol SSL传输的协议版本。 TLSv1.2 是 适用于所有版本 security.ssl.algorithms 支持的SSL标准算法,具体可参考java官网:http://docs.oracle.com/javase/8/docs/technotes/guides/security/StandardNames.html#ciphersuites。 TLS_DHE_RSA_WITH_AES_128_GCM_SHA256,TLS_ECDHE_RSA_WITH_AES_128_GCM_SHA256,TLS_DHE_RSA_WITH_AES_256_GCM_SHA384,TLS_ECDHE_RSA_WITH_AES_256_GCM_SHA384 是 security.ssl.enabled 内部通信SSL总开关,按照集群的安装模式自动配置。 安全模式:true 普通模式:false 是 仅MRS 3.x及之后版本 security.ssl.keystore Java keystore文件。 - 是 security.ssl.keystore-password keystore文件解密密码。 - 是 security.ssl.key-password keystore文件中服务端key的解密密码。 - 是 security.ssl.truststore truststore文件包含公共CA证书。 - 是 security.ssl.truststore-password truststore文件解密密码。 - 是
  • JobManager & TaskManager 表1 JobManager & TaskManager参数说明 参数 描述 默认值 是否必选 备注 taskmanager.memory.size TaskManager在JVM堆内存中保留空间的大小,此内存用于排序,哈希表和中间状态的缓存。如果未指定,则会使用JVM堆内存乘以比例taskmanager.memory.fraction。单位:MB。 0 否 仅MRS 3.x之前版本 taskmanager.registration.initial-backoff 两次连续注册的初始间隔时间。单位:ms/s/m/h/d。 时间数值和单位之间有半角字符空格。ms/s/m/h/d表示毫秒、秒、分钟、小时、天。 500 ms 否 taskmanager.registration.refused-backoff JobManager拒绝注册后到允许再次注册的间隔时间。 5 min 否 taskmanager.rpc.port TaskManager的IPC端口范围。 32326-32390 否 适用于所有版本 taskmanager.memory.segment-size 内存管理器和网络堆栈使用的内存缓冲区大小。单位:bytes。 32768 否 taskmanager.data.port TaskManager数据交换端口范围。 32391-32455 否 taskmanager.data.ssl.enabled TaskManager之间数据传输是否使用SSL加密,仅在全局开关security.ssl开启时有效。 false 否 taskmanager.numberOfTaskSlots TaskManager占用的slot数,一般配置成物理机的核数,yarn-session模式下只能使用-s参数传递,yarn-cluster模式下只能使用-ys参数传递。 1 否 parallelism.default 默认并行度,用于未指定并行度的作业。 1 否 taskmanager.memory.fraction TaskManager在JVM堆内存中保留空间的比例,此内存用于排序,哈希表和中间状态的缓存。 0.7 否 taskmanager.memory.off-heap TaskManager是否使用堆外内存,此内存用于排序,哈希表和中间状态的缓存。建议对于大内存,开启此配置提高内存操作的效率。 false 是 taskmanager.memory.preallocate TaskManager是否在启动时分配保留内存空间。当开启堆外内存时,建议开启此配置项。 false 否 task.cancellation.interval 两次连续任务取消操作的间隔时间。单位:ms。 30000 否 client.rpc.port Flink client端Akka system监测端口。 32651-32720 否 仅MRS 3.x及之后版本 jobmanager.heap.size JobManager堆内存大小,yarn-session模式下只能使用-jm参数传递,yarn-cluster模式下只能使用-yjm参数传递,如果小于YARN配置文件中yarn.scheduler.minimum-allocation-mb大小,则使用YARN配置中的值。单位:B/KB/MB/GB/TB。 1024mb 否 taskmanager.heap.size TaskManager堆内存大小,yarn-session模式下只能使用-tm参数传递,yarn-cluster模式下只能使用-ytm参数传递,如果小于YARN配置文件中yarn.scheduler.minimum-allocation-mb大小,则使用YARN配置中的值。单位:B/KB/MB/GB/TB。 1024mb 否 taskmanager.network.numberOfBuffers TaskManager网络传输缓冲栈数量,如果作业运行中出错提示系统中可用缓冲不足,可以增加这个配置项的值。 2048 否 taskmanager.debug.memory.startLogThread 调试Flink内存和GC相关问题时可开启,TaskManager会定时采集内存和GC的统计信息,包括当前堆内,堆外,内存池的使用率和GC时间。 false 否 taskmanager.debug.memory.logIntervalMs TaskManager定时采集内存和GC的统计信息的采集间隔。 0 否 taskmanager.maxRegistrationDuration TaskManager向JobManager注册自己的最长时间,如果超过时间,TaskManager会关闭。 5 min 否 taskmanager.initial-registration-pause 两次连续注册的初始间隔时间。该值需带一个时间单位(ms/s/min/h/d)(比如5秒)。 时间数值和单位之间有半角字符空格。ms/s/m/h/d表示毫秒、秒、分钟、小时、天。 500 ms 否 taskmanager.max-registration-pause TaskManager注册失败最大重试间隔。单位:ms/s/m/h/d。 30 s 否 taskmanager.refused-registration-pause TaskManager注册连接被JobManager拒绝后的重试间隔。单位:ms/s/m/h/d。 10 s 否 classloader.resolve-order 从用户代码加载类时定义类解析策略,这意味着是首先检查用户代码jar(“child-first”)还是应用程序类路径(“parent-first”)。默认设置指示首先从用户代码jar加载类,这意味着用户代码jar可以包含和加载不同于Flink使用的(依赖)依赖项。 child-first 否 slot.idle.timeout Slot Pool中空闲Slot的超时时间(以ms为单位)。 50000 否 slot.request.timeout 从Slot Pool请求Slot的超时(以ms为单位)。 300000 否 task.cancellation.timeout 取消任务超时时间(以ms为单位),超时后会触发TaskManager致命错误。设置为0,取消任务卡住则不会报错。 180000 否 taskmanager.network.detailed-metrics 启用网络队列长度的详细指标监控。 false 否 taskmanager.network.memory.buffers-per-channel 每个传出/传入通道(子分区/输入通道)使用的最大网络缓冲区数.在基于信用的流量控制模式下,这表示每个输入通道中有多少信用。它应配置至少2以获得良好的性能。1个缓冲区用于接收子分区中的飞行中数据,1个缓冲区用于并行序列化。 2 否 taskmanager.network.memory.floating-buffers-per-gate 每个输出/输入门(结果分区/输入门)使用的额外网络缓冲区数。在基于信用的流量控制模式中,这表示在所有输入通道之间共享多少浮动信用。浮动缓冲区基于积压(子分区中的实时输出缓冲区)反馈来分布,并且可以帮助减轻由子分区之间的不平衡数据分布引起的背压。如果节点之间的往返时间较长和/或群集中的机器数量较多,则应增加此值。 8 否 taskmanager.network.memory.fraction 用于网络缓冲区的JVM内存的占比。这决定了TaskManager可以同时拥有多少流数据交换通道以及通道缓冲的程度。如果作业被拒绝或者收到系统没有足够缓冲区的警告,请增加此值或“taskmanager.network.memory.min”和“taskmanager.network.memory.max”。另请注意,“taskmanager.network.memory.min”和“taskmanager.network.memory.max”可能会覆盖此占比。 0.1 否 taskmanager.network.memory.max 网络缓冲区的最大内存大小。该值需带一个大小单位(B/KB/MB/GB/TB)。 1 GB 否 taskmanager.network.memory.min 网络缓冲区的最小内存大小。该值需带一个大小单位(B/KB/MB/GB/TB)。 64 MB 否 taskmanager.network.request-backoff.initial 输入通道的分区请求的最小退避(以ms为单位)。 100 否 taskmanager.network.request-backoff.max 输入通道的分区请求的最大退避(以ms为单位)。 10000 否 taskmanager.registration.timeout TaskManager注册的超时时间,在该时间内未成功注册,TaskManager将终止。该值需带一个时间单位(ms/s/min/h/d)。 5 min 否 resourcemanager.taskmanager-timeout 释放空闲TaskManager的超时(以ms为单位)。 30000 否
  • Blob服务端 表2 Blob服务端参数说明 参数 描述 默认值 是否必选 blob.server.port blob服务器端口。 32456-32520 否 blob.service.ssl.enabled blob传输通道是否加密传输,仅在全局开关security.ssl开启时有。 true 是 blob.fetch.retries TaskManager从JobManager下载blob文件的重试次数。 50 否 blob.fetch.num-concurrent JobManager支持的下载blob的并发数。 50 否 blob.fetch.backlog JobManager支持的blob下载队列大小,比如下载Jar包等。单位:个。 1000 否 library-cache-manager.cleanup.interval 当用户取消flink job后,jobmanager删除HDFS上存放用户jar包的时间,单位为s。 仅适用于MRS 3.x及之后版本。 3600 否
  • Distributed Coordination (via Akka) 表3 Distributed Coordination参数说明 参数 描述 默认值 是否必选 备注 akka.ask.timeout akka所有异步请求和阻塞请求的超时时间。如果Flink发生超时失败,可以增大这个值。当机器处理速度慢或者网络阻塞时会发生超时。单位:ms/s/m/h/d。 10s 否 适用于所有版本 akka.lookup.timeout 查找JobManager actor对象的超时时间。单位:ms/s/m/h/d。 10s 否 akka.framesize JobManager和TaskManager间最大消息传输大小。当Flink出现消息大小超过限制的错误时,可以增大这个值。单位:b/B/KB/MB。 10485760b 否 akka.watch.heartbeat.interval Akka DeathWatch机制检测失联TaskManager的心跳间隔。如果TaskManager经常发生由于心跳消息丢失或延误而被错误标记为失联的情况,可以增大这个值。单位:ms/s/m/h/d。 10s 否 akka.watch.heartbeat.pause Akka DeathWatch可接受的心跳暂停时间,较小的数值表示不允许不规律的心跳。单位:ms/s/m/h/d。 60s 否 akka.watch.threshold DeathWath失败检测阈值,较小的数值容易把正常TaskManager标记为失败,较大的值增加了失败检测的时间。 12 否 akka.tcp.timeout 发送连接TCP超时时间,如果经常发生满网络环境下连接TaskManager超时,可以增大这个值。单位:ms/s/m/h/d。 20s 否 akka.throughput Akka批量处理消息的数量,一次操作完后把处理线程归还线程池。较小的数值代表actor消息处理的公平调度,较大的值以牺牲调度公平的代价提高整体性能。 15 否 akka.log.lifecycle.events Akka远程时间日志开关,当需要调试时可打开此开关。 false 否 akka.startup-timeout 远程组件启动失败前的超时时间。该值需带一个时间单位(ms/s/min/h/d) 与akka.ask.timeout的值一致 否 akka.ssl.enabled Akka通信SSL开关,仅在全局开关security.ssl开启时有。 true 是 akka.client-socket-worker-pool.pool-size-factor 计算线程池大小的因子,计算公式:ceil(可用处理器*因子),计算结果限制在pool-size-min和pool-size-max之间。 1.0 否 仅适用于MRS 3.x及之后版本 akka.client-socket-worker-pool.pool-size-max 基于因子计算的线程数上限。 2 否 akka.client-socket-worker-pool.pool-size-min 基于因子计算的线程数下限。 1 否 akka.client.timeout 【说明】客户端超时时间。该值需带一个时间单位(ms/s/min/h/d)。 60s 否 akka.server-socket-worker-pool.pool-size-factor 【说明】计算线程池大小的因子,计算公式:ceil(可用处理器*因子),计算结果限制在pool-size-min和pool-size-max之间。 1.0 否 akka.server-socket-worker-pool.pool-size-max 基于因子计算的线程数上限。 2 否 akka.server-socket-worker-pool.pool-size-min 基于因子计算的线程数下限。 1 否
  • 配置详情 本章节介绍如下参数配置: JobManager & TaskManager: JobManager和TaskManager是Flink的主要组件,针对各种安全场景和性能场景,配置项包括通信端口,内存管理,连接重试等。 Blob服务端: JobManager节点上的Blob服务端是用于接收用户在客户端上传的Jar包,或将Jar包发送给TaskManager,传输log文件等,配置项包括端口,SSL,重试次数,并发等。 Distributed Coordination (via Akka): Flink客户端与JobManager的通信,JobManager与TaskManager的通信和TaskManager与TaskManager的通信都基于Akka actor模型。相关参数可以根据网络环境或调优策略进行配置,配置项包括消息发送和等待的超时设置,以及Akka DeathWatch检测机制参数等。 SSL: 当需要配置安全Flink集群时,需要配置SSL相关配置项,配置项包括SSL开关,证书,密码,加密算法等。 Network communication (via Netty): Flink运行Job时,Task之间的数据传输和反压检测都依赖Netty,某些环境下可能需要对Netty参数进行配置。对于高级调优,可调整部分Netty配置项,默认配置已可满足大规模集群并发高吞吐量的任务。 JobManager Web Frontend: JobManager启动时,会在同一进程内启动Web服务器,访问Web服务器可以获取当前Flink集群的信息,包括JobManager,TaskManager及集群内运行的Job。Web服务器参数的配置项包括端口,临时目录,显示项目,错误重定向,安全相关等。 File Systems: Task运行中会创建结果文件,支持对文件创建行为进行配置,配置项包括文件覆盖策略,目录创建等。 State Backend: Flink提供了HA和作业的异常恢复,并且提供版本升级时作业的暂停恢复。对于作业状态的存储,Flink依赖于state backend,作业的重启依赖于重启策略,用户可以对这两部分进行配置。配置项包括state backend类型,存储路径,重启策略等。 Kerberos-based Security: Flink安全模式下必须配置Kerberos相关配置项,配置项包括kerberos的keytab、principal等。 HA: Flink的HA模式依赖于ZooKeeper,所以必须配置ZooKeeper相关配置,配置项包括ZooKeeper地址,路径,安全认证等。 Environment: 对于JVM配置有特定要求的场景,可以通过配置项传递JVM参数到客户端,JobMananger,TaskManager等。 Yarn: Flink运行在Yarn集群上时,JobManager运行在Application Master上。JobManager的一些配置参数依赖于Yarn,通过配置YARN相关的配置,使Flink更好的运行在Yarn上,配置项包括yarn container的内存,虚拟内核,端口等。 Pipeline: 为适应某些场景对降低时延的需求,设计多个Job间采用Netty直接相连的方式传递数据,即分别使用NettySink用于Server端、NettySource用于Client端进行数据传输。配置项包括NettySink的信息存放路径、NettySink的端口监测范围、连接是否通过SSL加密以及NettySink监测所使用的网络所在域等。
  • 配置说明 Flink所有的配置参数都可以在客户端侧进行配置,建议用户直接修改客户端的“flink-conf.yaml”配置文件进行配置,如果通过Manager界面修改Flink服务参数,配置完成之后需要重新下载安装客户端: 配置文件路径:客户端安装路径/Flink/flink/conf/flink-conf.yaml。 文件的配置格式为key: value。 例:taskmanager.heap.size: 1024mb 注意配置项key:与value之间需有空格分隔。
  • 会议控制 会议主席和与会者支持的会控功能如下: 图20 会议控制 申请主席,获得更多权限 申请主席时需要填写的密码,可以从会议组织者处获取。 进入“申请主席”设置界面。 按遥控器的键显示工具条。 按方向键选择工具条上的,按OK键。 按方向键选择“申请主席”,按OK键。 图21 选择申请主席 使用遥控器输入密码,按OK键。 图22 输入密码 释放主席,减少更多操作 只有当前的主席进行释放主席操作后,其他会场才可以申请主席。 按遥控器的键显示工具条。 按方向键选择工具条上的,按OK键。 按方向键选择“释放主席”,按OK键。 图23 选择释放主席 观看会场,会场随心看 进入观看会场界面。 按遥控器的键显示工具条。 按方向键选择工具条上的,按OK键。 按方向键选择“观看会场”,按OK键。 图24 打开观看会场界面 按方向键选择需要观看的会场,按OK键。 图25 选择观看会场 您可以勾选“循环观看”,选择需要循环观看的两个或多个会场,设置“间隔时间(秒)”后,选择“观看”,即可循环观看多个会场。选择“停止观看”可以停止循环观看 添加会场,会场随心加 进入添加会场界面。 按遥控器的键显示工具条。 按方向键选择工具条上的,按OK键。 按方向键选择“添加会场”,按OK键。 图26 打开添加会场界面 添加需要呼叫的会场。 需要呼叫的会场在地址本中。 在“所有会场”中按方向键选择按方向键和OK键选择企业通讯录。 按方向键和OK键勾选需要呼叫的会场。 按方向键选择“呼叫”,按OK键确认呼叫。 图27 呼叫企业通讯录中的会场 已有需要呼叫的会场SIP号码。 按方向键选择“临时会场”,输入待添加会场的SIP号码。 按方向键选择“+”,按OK键确认添加。重复操作可添加多个临时会场。 按方向键选择“呼叫”,按OK键确认呼叫。 图28 呼叫会场SIP号码 删除会场,会场随心退 主席会场可以将某个入会或未入会的会场删除。会场被删除后将不再属于该会议,即被删除的会场不会出现在会场列表中。主席会场可以通过“添加会场”使该会场重新加入会议。 进入删除会场界面。 按遥控器的键显示工具条。 按方向键选择工具条上的,按OK键。 按方向键选择“删除会场”,按OK键。 图29 打开删除会场界面 按方向键选择需要删除的会场,按OK键确认删除。 呼叫会场,会场随心呼 当待呼叫会场已经在会议列表中,需要重新发起呼叫时,可以使用该会控功能。 进入呼叫会场界面。 按遥控器的键显示工具条。 按方向键选择工具条上的,按OK键。 按方向键选择“呼叫会场”,按OK键。 图30 打开呼叫会场界面 按方向键选择需要呼叫的会场,按OK键确认呼叫。 挂断会场,会场随心挂 主席会场可以对某个已入会的会场执行挂断操作,该会场被挂断后,将自动离会。但被挂断的会场仍属于该会议,主席会场可以通过“呼叫会场”会控项把该会场重新呼入会议。 进入挂断会场界面。 按遥控器的键显示工具条。 按方向键选择工具条上的,按OK键。 按方向键选择“挂断会场”,按OK键。 图31 打开挂断会场界面 按方向键选择需要挂断的会场,按OK键确认挂断。 关闭/打开麦克风 主席会场可以关闭或打开某个不发言会场的麦克风,关闭后会议中将不能听到该会场的声音。 进入关闭/打开麦克风界面。 按遥控器的键显示工具条。 按方向键选择工具条上的,按OK键。 按方向键选择“关闭/打开麦克风”,按OK键。 图32 进入关闭/打开麦克风界面 按方向键选择需要关闭/打开麦克风的会场,按OK键确认。 关闭/打开扬声器 主席会场关闭或打开某个会场的扬声器后,该会场将不能或能听到当前会议的声音。 进入“打开/关闭扬声器”设置界面。 按遥控器的键显示工具条。 按方向键选择工具条上的,按OK键。 按方向键选择“关闭/打开扬声器”,按OK键。 图33 进入关闭/打开扬声器界面 按方向键选择需要关闭/打开扬声器的会场,按OK键确认。 自由讨论,请随意发言 设置自由讨论后所有会场的麦克风被打开,各会场的声音被混合后广播给所有会场。执行该操作后正在进行的广播会场、关闭扬声器、关闭麦克风和点名发言将自动取消。 进入“自由讨论”设置界面。 按遥控器的键显示工具条。 按方向键选择工具条上的,按OK键。 按方向键选择“自由讨论”,按OK键。 图34 打开自由讨论界面 广播会场,请观看指定会场 所有非主席会场(广播源会场除外)被强制观看该会场的图像,主席会场仍然可观看任意一个与会会场的图像。 进入“广播会场”设置界面。 按遥控器的键显示工具条。 按方向键选择工具条上的,按OK键。 按方向键选择“广播会场”,按OK键。 图35 打开广播会场界面 按方向键选择需要广播的会场,按OK键确认。 声控切换,观看声音大的会场 适用于讨论或辩论场景,声音最大的会场图像将被其他所有与会会场看到。 进入“声控切换”设置界面。 按遥控器的键显示工具条。 按方向键选择工具条上的,按OK键。 按方向键选择“声控切换”,按OK键。 图36 打开声控切换界面 按方向键选择声控灵敏度,按OK键确认。 高:声控门限低,声音较小时执行声控切换。 中:声控门限适中,声音适中时执行声控切换。 低:声控门限高,声音较大时执行声控切换。 剥夺演示令牌,停止会场的共享 会议过程中,如果某个会场正在共享材料,主席会场可以剥夺演示令牌,该会场将会失去演示令牌而停止共享材料。 进入“剥夺演示令牌”设置界面。 按遥控器的键显示工具条。 按方向键选择工具条上的,按OK键。 按方向键选择“剥夺演示令牌”,按OK键。 图37 打开剥夺演示令牌界面 按OK键确认剥夺演示令牌。 点名发言 当主席会场需要某个会场发言时,可以对该会场执行“点名发言”操作。 被主席会场点名发言后,该会场的图像、声音被广播,除主席会场和该会场以外的其他会场麦克风均被关闭。 进入“点名发言”设置界面。 按遥控器的键显示工具条。 按方向键选择工具条上的,按OK键。 按方向键选择“点名发言”,按OK键。 图38 打开点名发言界面 按方向键选择需要点名的会场,按OK键确认。 申请发言列表 任何非主席会场执行“申请发言”操作后,申请记录存储于主席会场的申请发言列表中。主席会场在列表中选择允许发言的会场,该会场的图像、声音被广播,其他非主席会场的麦克风均被关闭。 进入“申请发言列表”界面。 按遥控器的键显示工具条。 按方向键选择工具条上的,按OK键。 按方向键选择“申请发言列表”,按OK键。 图39 打开申请发言列表 按方向键选择允许发言的会场,按OK键确认。 执行一次允许发言的操作后,该会场在申请发言列表中的记录会被清除。 延长会议,让会议多开会儿 估计预定的会议时间不足以完成本次会议,主席会场可以通过“延长会议”操作使会议结束时间延后。 进入“延长会议”设置界面。 按遥控器的键显示工具条。 按方向键选择工具条上的,按OK键。 按方向键选择“延长会议”,按OK键。 图40 打开延长会议界面 按数字键输入延长的时间,按OK键确认。 结束会议,节约与会方的每一分钟 主席会场不想继续本次会议时,可以结束会议。 进入“结束会议”设置界面。 按遥控器的键显示工具条。 按方向键选择工具条上的,按OK键。 按方向键选择“结束会议”,按OK键。 图41 打开结束会议界面 按方向键选择确认,按OK键。
  • 加入会议 通过会议ID号入会 当获取到会议的ID号时,可以通过该方式加入会议。 在“呼叫”界面,输入会议ID,按键发起呼叫。 图12 输入会议ID 通过会议日程加入会议 当终端在华为云会议管理平台上预约会议后,会议日程上有会议记录。 您可以在主界面按方向键进入“会议日程”界面,选择某个正在进行的会议,按OK键加入会议。 图13 选择正在进行的会议 扫码入会 在硬件终端的主界面会显示用于硬件终端接入会议的二维码,如图14所示。会议用户可以使用“华为云会议”移动客户端扫描该二维码将硬件终端拉入会议。 图14 扫码入会
  • 共享会议材料 TE系列硬终端支持以下3种方式共享会议材料。 图6 会议材料共享方式 AirPresence是终端配套的无线投屏客户端,支持安装在移动设备或PC上。 使用AirPresence Key共享会议材料 将AirPresence Key插入终端USB接口进行自动配对。 配对成功后,将AirPresence Key从终端拔下,插入PC的USB接口。 在PC上安装AirPresence Key应用程序。安装完成后,PC界面提示“连接成功,按下按钮可投屏”。 按AirPresence Key按钮,共享PC上的会议材料。 图7 按AirPresence Key按钮 使用AirPresence 移动版共享会议材料 如需获取AirPresence 移动版,Android系统请在华为应用市场或Google Play搜索“AirPresence”下载,iOS系统请在APP Store搜索“AirPresence”下载。 在移动设备上安装AirPresence客户端,打开AirPresence Apps,输入终端遥控器界面显示的投影码,点击。 图8 输入投影码 点击“共享”,选择需要共享的文件。 图9 发起共享 使用AirPresence PC版共享会议材料 登录终端Web页面,单击“下载AirPresence客户端”,下载并安装AirPresence客户端到本机。 图10 下载AirPresence客户端 打开AirPresence客户端,输入投影码,单击,进行桌面共享。 图11 发起桌面共享
  • 业务可视化使用流程 业务可视化使用流程如图1所示,包括“配置管理”、“新建公共卡片模板”、“新建我的卡片”、“新建并发布屏幕模板”、“新建我的屏幕”、“新建屏幕轮播”、“回收站”。 图1 使用流程 (可选)配置管理 新建布局 通过上传离线开发好的页面布局源文件,为新建屏幕模板提供页面布局选择,从而实现自定义屏幕构建。 新建屏幕主题 通过上传离线开发好的屏幕主题源文件,为后续配置屏幕所需的背景颜色、背景图片、主题风格提供了多样化的选择,从而实现自定义屏幕构建。 新增自定义消息SO 新增自定义消息SO(Schema Object),为卡片之间的交互关系提供了消息联动的基础配置,从而实现自定义屏幕构建。 (可选)新建公共卡片模板 业务可视化已经预置通用的公共卡片模板,如果不满足你的需求,您可以新建卡片模板。 新建我的卡片 通过公共卡片模板或上传离线卡片的方式构建自定义卡片。 新建并发布屏幕模板 通过关联布局和卡片、设置卡片消息联动、配置样例页面来创建屏幕模板。 新建我的屏幕 通过选择公共屏幕模板构建而来,可二次定义相关属性配置。 (可选)新建屏幕轮播 将多个屏幕进行组合后,能达到屏幕页面轮播、左右翻页、底部导航切换的效果。 (可选)回收站 通过回收站对已删除数据进行恢复操作,可回收60天内删除的内容。 父主题: 业务可视化
共100000条