内容选择
全部
内容选择
内容分类
  • 学堂
  • 博客
  • 论坛
  • 开发服务
  • 开发工具
  • 直播
  • 视频
  • 用户
时间
  • 一周
  • 一个月
  • 三个月
  • 【SPARK调优】spark调优之小文件合并

    而由于时间切片切的比较小,导致这样的插入次数特别多,从而产生了大量的小文件。         那么我们需要解决的问题就是2个,如何才能把这些历史的小文件进行合并以及如何才能保证后续的业务流程中不再产生小文件,我们指导业务开发人员做了以下优化:         1、使用INSERT

    作者: 杜子
    发表时间: 2020-07-22 17:13:04
    10183
    0
  • SQL作业写入小文件数太多,查询慢?

    请问一下SQL作业写入小文件数太多,查询慢? 应该如何处理

    作者: CreamCrystal
    2147
    2
  • FusionInsight MRS小文件合并工具简介

    点的内存限制。如果HDFS中有大量的小文件,会消耗NameNode大量内存,还会大幅降低读写性能,延长作业运行时间。因此,小文件问题是制约Hadoop集群规模扩展的关键问题。 本工具主要有如下两个功能: 扫描表中有多少低于用户设定阈值的小文件,返回该表目录中所有数据文件的平均大小。

    作者: 一枚核桃
    发表时间: 2021-07-30 08:22:12
    1966
    0
  • 方案概述

    方案架构 针对传统企业在大数据场景面临的问题,华为云提供了基于对象存储服务OBS作为统一数据湖存储的大数据存算分离方案。 图1 基于OBS的华为云大数据存算分离方案 华为云大数据存算分离方案基于对象存储服务OBS的大容

  • 方案概述

    方案优势 将数据重新整理并连续存储,减少磁盘的随机读写操作,提高数据库的性能。 将数据重新整理并紧凑存储,减少数据在磁盘上的占用空间,节省存储资源。 将数据重新整理并连续存储,提高数据的访问效率,减少数据的访问时间。

  • 方案概述

    方案概述 通过独立专享迁移集群以及配置迁移专线,简单、快捷实现对象存储、文件存储一站式上云,提升上云效率。本文介绍如何使用迁移中心MgC将其他云平台的对象存储或文件存储数据迁移到华为云。 优势 专享迁移集群,减少资源竞争,提高迁移效率。

  • 方案概述

    以显著减少磁盘上的存储。使用DLI可轻松将CSV格式数据转换为Parquet格式数据。 方案架构 将CSV格式的数据上传到对象存储服务OBS,使用DLI将CSV数据转换为Parquet数据,并将转换后的Parquet数据存储到OBS中。

  • 方案概述

    方案概述 应用场景 MongoDB 作为一种非常流行的 NoSQL 数据库,在大规模数据存储和处理中有着广泛的应用。随着数据量的不断增长,企业对于高效的数据存储和处理需求也日益增加。MongoDB 以其灵活的数据模型、可扩展性和高可用性,成为了许多企业构建大规模数据存储平台的首选。

  • 方案概述

    方案概述 应用场景 某商城作为中国一家自营式电商,在保持高速发展的同时,沉淀了数亿的忠实用户,积累了海量的真实数据。如何利用BI工具从历史数据中找出商机,是大数据应用在精准营销中的关键问题,也是所有电商平台在做智能化升级时所需要的核心技术。

  • 方案概述

    dge侧将资源信息同步至MgC,实现满足安全、实时和性能的双向协同通信。 通过对象存储服务(OBS)进行自定义脚本存储与管理。 通过集成主机迁移服务(SMS)、对象存储迁移服务(OMS)和数据复制服务(DRS)实现多种批量迁移编排工作流。

  • 方案概述

    方案概述 在互联网中,使用OBS作为存储在移动APP(手机Android、iOS应用)中获得了越来越广泛的应用。Android和iOS应用使用OBS服务时,不能直接存储访问密钥(AK/SK)访问密钥(AK/SK)访问密钥(AK/SK),这样可能会导致访问密钥(AK/S

  • 方案概述

    MariaDB 进行性能优化。 方案架构 方案优势 显著减少查询响应时间,提高用户体验。 性能优化可以降低系统负载 可以节省硬件和存储成本。 通过提高数据库的效率,可以减少对服

  • 方案概述

    方案架构 图1 验证逻辑图 大key判断依据: Key的元素数量较多,一般集合类型的Key中元素超过5000个,则被定义为大Key。 Key的Value占用存储空间较大,一般单个Stri

  • 方案概述

    方案概述 应用场景 在当今的数字化时代,高效的数据存储和处理至关重要。Redis 作为一种高性能的内存数据库,其性能优化有着极大的必要性。想象一下,在高并发的电商平台中,每一秒都有大量的用户请求,如果 Redis 的性能不佳,可能导致购物车加载缓慢、

  • 方案概述

    方案架构 图1 方案架构 相同或相似图像搜索:从海量图像库中快速搜索相同或相似的的图像,可以应用于图像推荐、审核等业务中。 方案优势 搜的准:

  • 方案概述

    方案概述 背景信息 本案例以“预测乳腺癌是良性/恶性”的场景为例。假设一部分的乳腺癌患者数据存储在xx医院,另一部分数据存储在某个其他机构,不同机构数据所包含的特征相同。 这种情况下,xx医院想申请使用其他机构的乳腺癌患者数据进行乳腺癌预测模

  • 方案概述

    方案概述 应用现状 在数字化转型过程中,一些大型企业的业务系统数据格式多样化,难以在业务系统间形成有效信息传输。如何实现多种数据类型之间灵活、快速的数据集成和转换,成为企业数字化转型所面临的重要问题。 比如企业中不同业务系统数据的存储格式、存

  • 方案概述

    还提供了顺序消息的支持,可以确保消息按照发送的顺序被消费,适用于一些对消息顺序要求较高的场景,如订单处理、流程审批等。消息的可靠存储机制也确保了消息不会因为生产者或消费者的故障而丢失,支持持久化存储,即使系统发生故障,也能够保证消息数据的完整性。 综上所述,对 RocketMQ 进行性能优化是非常

  • 解决hive表小文件过多问题

    前些时间,运维的同事反应小文件过多问题,需要我们去处理,所以想到是以何种手段去合并现有的小文件。我们知道Hadoop需要在namenode维护文件索引相关的metadata,所以小文件过多意味着消耗更大的内存空间。 过程 经过网上的调研发现通过hive表使用orc格式进行存储能够通过con

    作者: 百忍成金的虚竹
    发表时间: 2021-03-27 17:05:03
    2852
    0
  • 方案概述

    本文档通过FunctionGraph函数结合语音识别服务的方式,介绍如何实现在高并发场景下快速实时的进行语音识别。 方案架构 图1 方案架构 架构图说明: 创建语音识别作业提交函数(Push_Transcriber_J