检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Hive常用配置参数 Hive是建立在Hadoop上的数据仓库框架,提供大数据平台批处理计算能力,能够对结构化/半结构化数据进行批量分析汇总完成数据计算。 本章节主要介绍Hive常用参数。 操作步骤 登录FusionInsight Manager,选择“集群 > 服务 > Hive
Flume与HDFS的关系 当用户配置HDFS作为Flume的Sink时,HDFS就作为Flume的最终数据存储系统,Flume将传输的数据全部按照配置写入HDFS中。 具体操作场景请参见典型场景:从本地采集静态日志保存到HDFS和典型场景:从本地采集动态日志保存到HDFS。 Flume与HBase的关系
产生告警的主机名。 附加信息 触发条件 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 NameNode进入安全模式后,该NameNode不可写入。 可能原因 用户手动进入安全模式或重启NameNode时存在丢块。 处理步骤 检查NameNode节点是否进入安全模式。 登录FusionInsight
success. Sqoop Shell: Type 'help' or '\h' for help. sqoop:000> 进入批量模式命令 进入批量模式有两种方式: 1.通过执行“sqoop2-shell”脚本,带一个文本文件名作为参数,该文件中按行存储了多条命令,工具会按顺序
的元数据。 LocalDir LocalHDFS RemoteHDFS NFS CIFS SFTP OBS Flink (适用于MRS 3.2.0及以后版本) Flink的元数据。 LocalDir LocalHDFS RemoteHDFS OBS(适用于MRS 3.5.0及之后版本)
compression”配置项是无效的,因为它会读取“spark.sql.parquet.compression.codec”配置项的值。当“spark.sql.parquet.compression.codec”未做设置时默认值为“snappy”,“parquet.compression”会读取该默认值。 因此,“spark
据对内存带宽的利用率不足,因此存在性能提升空间。使用成熟的向量化的c++加速库后,数据采用向量化格式存在内存中,可以提高带宽利用率,并通过批量的列数处理获得加速效果。 通过开启Spark Native引擎特性,获得SparkSQL的性能加速。 使用约束 Scan算子当前支持的数据
compression”配置项是无效的,因为它会读取“spark.sql.parquet.compression.codec”配置项的值。当“spark.sql.parquet.compression.codec”未做设置时默认值为“snappy”,“parquet.compression”会读取该默认值。 因此,“spark
Hudi性能调优 性能调优方式 当前版本Hudi写入操作主推Spark,因此Hudi的调优和Spark比较类似,可参考Spark Core性能调优。 推荐资源配置 mor表: 由于其本质上是写增量文件,调优可以直接根据hudi的数据大小(dataSize)进行调整。 dataSi
产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 新数据写入失败,任务中断。 可能原因 集群磁盘容量已满。 BE节点间数据倾斜。 处理步骤 登录FusionInsight Manager页面,选择“运维
角色名 产生告警的角色名称 主机名 产生告警的主机名 磁盘路径 产生告警的磁盘路径 对系统的影响 磁盘使用率高可能导致ClickHouse写入执行失败。 可能原因 ClickHouseServer节点磁盘容量过小。 处理步骤 登录FusionInsight Manager页面,选择“运维
/11 10:58:00重启成功后对应的“Input Size”的值显示为“0 records”。 图1 Web UI界面部分batch time对应Input Size为0 records 回答 Kafka重启成功后应用会按照batch时间把2017/05/11 10:57:00~2017/05/11
OpenTSDB提供了基于HTTP或HTTPS的应用程序接口,可以使用Java API调用相关接口操作其数据,详情请参考开发程序章节。 使用curl命令操作Opentsdb 写入数据。例如,录入一个指标名称为testdata,时间戳为1524900185,值为true,标签为key,value的指标数据。 curl
设定字段分隔符,和Hive表或hdfs文件保持一致 --lines-terminated-by 设定行分隔符,和hive表或hdfs文件保持一致 --mysql-delimiters MySQL默认分隔符设置 export参数 --input-fields-terminated-by 字段分隔符 --input
OBS数据存储场景可根据业务需求配置本地缓存,提升读取速率,配置单盘100GB本地缓存示例:—data_cache=/srv/BigData/data1/impala:100GB HDFS存储开启短路读 HDFS存储场景下可开启短路读,提升读取速率,具体请参考:https://impala
表2 属性描述 属性 描述 carbon.options.bad.records.logger.enable 启用或禁用bad record日志记录。 carbon.options.bad.records.action 指定bad record操作,例如,强制(force),重定
设定字段分隔符,和Hive表或HDFS文件保持一致 --lines-terminated-by 设定行分隔符,和Hive表或HDFS文件保持一致 --mysql-delimiters MySQL默认分隔符设置 export参数 --input-fields-terminated-by 字段分隔符 --input
t操作后,会在外表数据路径下生成新的数据文件,且文件属组是userB,当userA查询tableA时,会读取外表数据目录下的所有的文件,此时会因没有userB生成的文件的读取权限而查询失败。 实际上,不只是查询场景,还有其他场景也会出现问题。例如:inset overwrite操
问题 设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常。 回答 创建、加载、更新表或进行其他操作时,数据会被写入HDFS。如果HDFS目录的磁盘空间配额不足,则操作失败并发生以下异常。 org.apache.hadoop.hdfs.protocol.
"subnet_name": "subnet-ed99", "components": "Hadoop,Spark2x,HBase,Hive,Hue,Flink,Oozie,Ranger,Tez", "safe_mode": "KERBEROS", "manager_admin_password":