检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
/fe/postinstallDetail.log FE安装后启动前的工作日志 /be/be.INFO BE进程的运行日志 be.WARNING “be.log”的子集,仅记录级别为WARN和FATAL的日志 /be/be-omm-<日期>-<PID>-gc.log.<编号> BE进程的GC日志 /be/postinstallDetail
CDLConnector的运行日志。 prestartDetail.log 服务启动前初始化集群的日志。 startDetail.log 启动服务的日志。 stopDetail.log 停止服务的日志。 cleanupDetail.log 服务执行cleanup的日志。 check-serviceDetail
stderr/stdin/syslog Yarn服务上运行的应用所对应的container日志。 yarn-application-check.log Yarn服务上运行的应用检查日志。 yarn-appsummary.log Yarn服务上运行的应用的运行结果日志。 yarn-switch-resourcemanager
迁移工具时产生的错误日志。 日志级别 ClickHouse提供了如表3所示的日志级别。 运行日志的级别优先级从高到低分别是error、warning、trace、information、debug,程序会打印高于或等于所设置级别的日志,设置的日志等级越高,打印出来的日志就越少。 表3
表1 参数描述 参数 描述 tableIdentifier Hudi表的名称。 tablelocation Hudi表的存储路径。 hoodie.archive.file.cleaner.policy 清理归档文件的策略:目前仅支持KEEP_ARCHIVED_FILES_BY_SIZ
合理使用数据表的分区字段和索引字段。 MergeTree引擎,数据是以分区目录的形式进行组织存储的,在进行的数据查询时,使用分区可以有效跳过无用的数据文件,减少数据的读取。 MergeTree引擎会根据索引字段进行数据排序,并且根据index_granularity的配置生成稀疏索
新最近一次全量备份的备份数据,所以不会产生新的恢复点。 在“备份配置”,勾选“DBService”和“Kafka”。 在“DBService”的“路径类型”,选择一个备份目录的类型。具体参数配置要求请参考7。 在“Kafka”的“路径类型”,选择一个备份目录的类型。具体参数配置要求请参考7。
、Oozie、CDL的元数据。恢复DBService的数据将恢复全部相关组件的元数据。 对系统的影响 数据恢复后,会丢失从备份时刻到恢复时刻之间的数据。 数据恢复后,依赖DBService的组件可能配置过期,需要重启配置过期的服务。 元数据恢复后,Kafka的消费者在ZooKee
记删除,同时将新的数据写入新的文件。在查询的时候,所有被标记删除的数据都会在文件级别被过滤掉,读取出来的数据就都是最新的数据,消除掉了读时合并中的数据聚合过程,并且能够在很多情况下支持多种谓词的下推。因此在许多场景都能带来比较大的性能提升,尤其是在有聚合查询的情况下。 Duplicate模型
数据迁移到MRS前信息收集 由于离线大数据搬迁有一定的灵活性,迁移前需要掌握现有集群的详细信息,以能够更好的进行迁移决策。 业务信息调研 大数据平台及业务的架构图。 大数据平台和业务的数据流图(包括峰值和均值流量等)。 识别平台数据接入源、大数据平台数据流入方式(实时数据上报、批量数据抽取)、分析平台数据流向。
请参考修改集群服务配置参数,进入Flume的“全部配置”页面。 左边菜单栏中选择所需修改的角色所对应的日志菜单。 选择所需修改的日志级别。 保存配置,在弹出窗口中单击“确定”使配置生效。 配置完成后即生效,不需要重启服务。 日志格式 Flume的日志格式如下所示: 表3 日志格式 日志类型
策略,可配置项为单个文件最大值、日志归档的最大保留数目,具体规则如下: 当单个文件超过默认单个文件最大值时,就会生成一个新的归档压缩文件,归档后的日志压缩文件命名规则为<原有日志名>.[编号].log.gz。 日志删除规则: 运行日志中的HetuEngine计算实例运行日志压缩文
ClickHouse日志启动了自动压缩归档功能,缺省情况下,当日志大小超过100MB的时(此日志文件大小可进行配置),会自动压缩。 压缩后的日志文件名规则为:“<原有日志名>.[编号].gz”。 默认最多保留最近的10个压缩文件,压缩文件保留个数可以在Manager界面中配置。 父主题: ClickHouse数据库运维
c.log Flume进程的GC日志。 /flume/Flume-audit.log Flume客户端的审计日志。 /flume/startAgent.out Flume启动前的进程参数日志。 日志级别 Flume提供了如表2所示的日志级别。 运行日志的级别优先级从高到低分别是F
记删除,同时将新的数据写入新的文件。在查询的时候,所有被标记删除的数据都会在文件级别被过滤掉,读取出来的数据就都是最新的数据,消除掉了读时合并中的数据聚合过程,并且能够在很多情况下支持多种谓词的下推。因此在许多场景都能带来比较大的性能提升,尤其是在有聚合查询的情况下。 Duplicate模型
tid}” 运行中的任务日志存储在以上路径中,运行结束后会基于YARN的配置是否汇聚到HDFS目录中,详情请参见Yarn常用配置参数。 日志归档规则: MapReduce的日志启动了自动压缩归档功能,缺省情况下,当日志大小超过50MB的时候,会自动压缩,压缩后的日志文件名规则为:
tid}” 运行中的任务日志存储在以上路径中,运行结束后会基于YARN的配置是否汇聚到HDFS目录中,详情请参见Yarn常用配置参数。 日志归档规则: MapReduce的日志启动了自动压缩归档功能,缺省情况下,当日志大小超过50MB的时候,会自动压缩,压缩后的日志文件名规则为:
MRS是企业级大数据存储、查询、分析的统一平台,能够帮助企业快速构建海量数据信息处理系统,通过对海量信息数据的分析挖掘,发现全新价值点和企业商机。 MRS提供了各组件的常见业务场景样例程序,开发者用户可基于样例工程进行相关数据应用的开发与编译,样例工程依赖的jar包直接通过华为云
考虑的最终值 在加载项中未指定 5 2000 在加载项中未指定 6000 6000 40 7 文件header列数与MAXCOLUMNS值,两者中的最大值 22000 40 20000 60 在加载项中未指定 CSV文件第一行的列数与MAXCOLUMNS值,两者中的最大值 对于设置MAXCOLUMNS
考虑的最终值 在加载项中未指定 5 2000 在加载项中未指定 6000 6000 40 7 文件header列数与MAXCOLUMNS值,两者中的最大值 22000 40 20000 60 在加载项中未指定 CSV文件第一行的列数与MAXCOLUMNS值,两者中的最大值 对于设置MAXCOLUMNS