检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
SELECT操作可以进行一定的调优操作。 查询的数据是大量的小文件。 查询的数据是较多的大文件。 在beeline/thriftserver模式下使用非spark用户操作。 操作步骤 可对INSERT...SELECT操作做如下的调优操作。 如果建的是Hive表,将存储类型设为Parquet,从而减少执行INSERT
Yarn”,在“概览”页面单击ResourceManager WebUI后的链接,进入到Yarn的WebUI界面。 在“All Applications”页面单击ID名称,进入应用详情页面。 单击应用的“Logs”,进入“Logs”页面,单击stdout全量日志,即可查看SQL防御详情,如下图所示: 更多Spark
调整Spark日志级别 配置WebUI上查看Container日志 获取运行中Spark应用的Container日志 配置Spark Eventlog日志回滚 配置WebUI上显示的Lost Executor信息的个数 配置JobHistory本地磁盘缓存 增强有限内存下的稳定性 配置YARN-C
W SEGMENTS查看Segment信息,可看见被删除的Segment的状态被标识为"Marked for Delete"。但使用SELECT * FROM tablename命令查询时,不会显示被删除的Segment的内容。 下一次加载数据且达到最大查询执行时间(由“max.query
SQL和DataFrame Spark Streaming Spark客户端设置回收站version不生效 Spark yarn-client模式下如何修改日志级别为INFO 父主题: 使用Spark/Spark2x
如果“table_blocksize”值太小,数据加载时,生成过多的小数据文件,可能会影响HDFS的使用性能。 如果“table_blocksize”值太大,数据查询时,索引匹配的block数据量较大,某些block会包含较多的blocklet,导致读取并发度不高,从而降低查询性能。 一般情况下,建议根据数据量
Hudi Savepoint操作说明 Savepoint用于保存并还原自定义的版本数据。 Hudi提供的savepoint就可以将不同的commit保存起来以便清理程序不会将其删除,后续可以使用Rollback进行恢复。 使用spark-sql管理savepoint。 示例如下:
region WHERE region.regionkey = nation.regionkey) IN 确定子查询生成的任意值是否等于给定的表达式。IN的结果遵循null的标准规则。子查询必须只生成一列: SELECT name FROM nation WHERE regionkey IN
选择“作业管理”的“表/文件迁移”页签,在待运行作业的“操作”列单击“运行”,即可开始HBase数据迁移。 迁移完成后,可以在目的端集群和源端集群的HBase Shell命令行中,通过同样的查询语句,对比查询结果进行验证。 例如: 在目的端集群和源端集群上通过查询BTable表的记录数来
使用Yarn客户端命令查询历史作业报错 问题现象 执行Yarn客户端命令查询历史作业报错,进程被终止。具体错误如下: 原因分析 客户端分配内存不足,导致提交命令报错。 处理步骤 以root用户登录HDFS客户端安装节点。 执行以下命令编辑文件。 vim /opt/client/HDFS/component_env
Streaming三个组件,其应用开发流程都是相同的。 开发流程中各阶段的说明如图1和表1所示。 图1 Spark应用程序开发流程 表1 Spark应用开发的流程说明 阶段 说明 参考文档 了解基本概念 在开始开发应用前,需要了解Spark的基本概念,根据实际场景选择需要了解的概念,分为Spark Core基本概念、Spark
获取运行中Spark应用的Container日志 调整Spark日志级别 配置WebUI上查看Container日志 配置WebUI上显示的Lost Executor信息的个数 配置JobHistory本地磁盘缓存 配置Spark Eventlog日志回滚 增强有限内存下的稳定性 配置YA
sources.r1.spooldir”的值为3新建的txt文件所在目录。 参数“server.sinks.obs_sink.hdfs.path”中的值为1中新建的OBS文件系统。 将“客户端安装目录/Hive/Beeline/lib”目录下的“hadoop-huaweicloud-*
0-SNAPSHOT.jar;,排查是否引入了非法字符。 如果是,修改非法字符,重新执行命令。 重新执行命令后,发生其他错误,查看该jar包的属主属组信息,发现全为root。 修改jar包的属主属组为omm:wheel,重新执行成功。 父主题: 使用Spark
Hudi Savepoint操作说明 Savepoint用于保存并还原自定义的版本数据。 Hudi提供的savepoint就可以将不同的commit保存起来以便清理程序不会将其删除,后续可以使用Rollback进行恢复。 使用spark-sql管理savepoint。 示例如下:
Hive查询数据是否支持导出? Hive查询数据支持导出,请参考如下语句进行导出: insert overwrite local directory "/tmp/out/" row format delimited fields terminated by "\t" select
版本元数据查询 查询对应版本元数据 父主题: API V1.1
开启ClickHouse租户CPU优先级配置 本章节内容仅适用于MRS 3.2.0及之后版本。 操作场景 ClickHouse租户支持CPU优先级,该特性依赖OS的CAP_SYS_NICE能力,需要开启该能力才可以生效。 操作步骤 使用root用户登录ClickHouseServer实例节点,执行如下命令:
API访问服务端进行Hive的相关操作。本文中的Hive客户端特指Hive client的安装目录,里面包含通过Java API访问Hive的样例代码。 HiveQL语言 Hive Query Language,类SQL语句。 HCatalog HCatalog是建立在Hive元数据之上的一个表信息
tableIdentifier Hudi表的名称。 tablelocation Hudi表的存储路径。 示例 run clean on h1; run clean on "/tmp/hudi/h1"; 注意事项 对表执行clean操作时需要表的owner才可以执行。 如果需要修改clean默认的参数,需要在执