检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
大数据 大数据是指规模庞大且复杂的数据集合,对于企业来说,如何收集、存储和分析大数据具有重要意义。以下是大数据如何使能业务创新、与业务结合并推动业务现代化的几个方面: 数据驱动决策:大数据分析可以帮助企业从海量数据中提取有价值的信息和洞察力,为决策提供支持。
文件类数据一致性验证的方法如下表所示: 表4 文件数据一致性对比方式 类型 对比项 工具 描述 对象存储 对象数量 OMS OMS迁移工具,通过MD5校验文件完整性和比对两边桶对象数据量是否一致。
如下图所示,可信身份从互联网(不可信网络)访问云资源的请求会被拒绝,不可信身份通过本地数据中心网络(可信网络)访问云资源的请求也会被拒绝,可信身份访问其他企业的对象存储桶(不可信资源)的请求还会被拒绝,只有可信身份通过本地数据中心网络(可信网络)访问本企业的云资源的请求是允许的。
、媒体处理、文件共享和内容管理和Web服务等 大数据分析、静态网站托管、在线视频点播、基因测序和智能视频监控等 存储逻辑 存放的是二进制数据,无法直接存放文件,如果需存放要先格式化文件系统 存放的是文件,会以文件和文件夹的层次结构来整理和呈现 存放的是对象,可以直接存放文件,文件会自动产生对应的系统元数据
数据调研 数据调研主要包括如下方面: 表1 数据调研方法表 调研内容 调研目的 举例 数据类型 根据数据类型选择合适的迁移工具 HDFS、HBase、MySQL等 数据量 历史数据量,用于评估历史数据迁移周期; 日增量数据,用于评估每日增量数据同步周期。
大数据迁移 调研 设计 部署 迁移 验证 切换 保障 父主题: 采用实施
线下DES磁盘拷贝 数据量较大,增量少的TB级数据 - OMS工具+回源迁移:对象存储迁移服务OMS作为易用、高效的线上数据迁移服务,通过调用源端对象存储的SDK,可快速传输数据并对数据进行加密存储,将数据复制到华为云OBS,可以帮助把对象存储数据从其他云服务商对象存储服务中的数据轻松
如下图所示,可信身份从互联网(不可信网络)访问云资源的请求会被拒绝,不可信身份通过本地数据中心网络(可信网络)访问云资源的请求也会被拒绝,可信身份访问其他企业的对象存储桶(不可信资源)的请求还会被拒绝,只有可信身份通过本地数据中心网络(可信网络)访问本企业的云资源的请求是允许的。
对海量数据支持更好 适用于将源端对象存储、网络文件存储,大数据存储迁移至华为云OBS对象存储、华为云SFS弹性文件存储、华为云大数据存储中的海量数据迁移。
大数据调研 平台调研 数据调研 任务调研 父主题: 调研评估
数据存储: 大数据平台需要具备高效的数据存储能力,以承载海量的数据。常见的数据存储技术包括分布式文件系统(如HDFS)、列式数据库(如HBase)等。这些存储系统提供高可靠性、可扩展性和容错性,以支持大规模数据的存储和访问需求。
采用适当的数据加密、身份验证、访问控制和数据隔离措施,以保护敏感数据免受潜在的安全威胁。 成本效益:在云上部署大数据集群时,需要考虑成本效益。云服务提供商可以提供弹性的计算和存储资源,避免了对物理硬件的直接投资和维护成本。
大数据任务调度平台的组件要1:1对标设计,版本尽量不变更,有版本升级需求的需要评估适配改造工作量。 弹性和可扩展性:在云上部署大数据任务调度平台时,应考虑平台的弹性和可扩展性。云环境提供了弹性计算和存储资源,可以根据工作负载的需求自动调整容量。
数据接入服务每小时可从数十万种数据源(如IoT数据采集、日志和定位追踪事件、网站点击流、社交媒体源等)中连续捕获、传送和存储数TB数据。详细信息请参考官网文档。
大数据架构设计 设计原则 大数据集群设计 大数据任务调度平台设计 大数据参考架构 华为云大数据组件 父主题: 方案设计
大数据迁移批次规划说明 大数据迁移上云时,是选择整体迁移还是分批迁移,原则如下: 整体迁移的场景: 规模小:大数据平台数据量少(TB级),计算任务数量不多,可以采用整体迁移的方法,先在云上部署大数据平台,然后全量迁移元数据、数据和任务。
大数据集群迁移:将大数据集群(包括存储、计算和管理组件)迁移到新的运行环境,包括集群的重新配置和数据迁移。集群迁移需要考虑数据的迁移方式、网络传输速度、兼容性和数据一致性等因素。
应用迁移上云简介 应用迁移上云简介 应用上云迁移是指将应用的接入层、应用层、中间件层和数据层迁移到云端的过程,迁移策略采用Rehost或Replatform,不含Refactor(应用改造),数据层包含对象存储、块存储、文件存储、关系型数据库、非关系型数据库。
一般迁移数据都是针对的Redis作为数据库存储使用的场景,其中在web场景下的缓存session时,也可以不用迁移,当客户端重新登录时会在华为云DCS中再一次存储。
分析大数据平台数据流向,数据在平台内各个组件间的流向,例如:数据采集组件类型、采集组件下一层、存储数据组件,数据处理过程中的工作流等。 图2 数据流示例 父主题: 大数据调研