检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
所以在普通模式下,建议单用户场景下使用,必须通过严格限定网络访问权限来保障集群的安全。 尽量将业务应用程序部署在同VPC和子网下的ECS中,避免通过外网访问MRS集群。 配置严格限制访问范围的安全组规则,禁止对MRS集群的入方向端口配置允许Any或0.0.0.0的访问规则。 父主题: MRS集群部署说明
MRS可以做什么? MRS支持什么类型的分布式存储? 什么是区域和可用区? MRS是否支持更换网段? MRS集群内节点是否支持降配操作? 不同版本的Hive之间是否可以兼容? 数据存储在OBS和HDFS有什么区别? 10亿级数据量场景的解决方案有哪些? zstd的压缩比有什么优势?
群方式部署,如果对外直接提供服务,将暴露多个节点服务,没有统一的访问入口。ClickHouse官方虽然提供了BalancedClickhouseDataSource的驱动方案,可以支持多节点的随机分配,提供了一定程度的负载均衡能力,但其故障检测能力不足,而且在扩缩容时,需要客户端感知集群节点变化,易用性不佳。
Loader常见问题 IE 10&IE 11浏览器无法保存数据 将Oracle数据库中的数据导入HDFS时各连接器的区别 父主题: 使用Loader
群方式部署,如果对外直接提供服务,将暴露多个节点服务,没有统一的访问入口。ClickHouse官方虽然提供了BalancedClickhouseDataSource的驱动方案,可以支持多节点的随机分配,提供了一定程度的负载均衡能力,但其故障检测能力不足,而且在扩缩容时,需要客户端感知集群节点变化,易用性不佳。
Loader常见问题 使用IE浏览器配置Loader作业时无法保存数据 将Oracle数据库中的数据导入HDFS时各连接器的区别 SQLServer全数据类型导入HDFS数据跳过 Loader作业导入大量数据至HDFS时报错 sftp-connector连接器相关作业运行失败 父主题:
SSD”只是用于标识存储目录“相对”的“低速”和“高速”之分,而并不是标识实际的存储介质类型,所以如果BE节点上的存储路径没有介质区别,则无需填写后缀。 处理步骤 修改FE的“default_storage_medium”配置为正确的存储介质,并重启FE生效。 将“be.conf”中SSD的显式配置删除。
HetuEngine会将数字和字符值隐式转换成正确的类型。HetuEngine不会把字符和数字类型相互转换。例如,一个查询期望得到一个varchar类型的值,HetuEngine不会自动将bigint类型的值转换为varchar类型。 如果有必要,可以将值显式转换为指定类型。 cast(value
通过这种方式,Spark只需要简单的记录建立数据的转换操作的日志,而不是完整的数据集,就能够提供容错性。这种数据的转换链记录就是数据集的溯源。由于并行程序,通常是对一个大数据集应用相同的计算过程,因此之前提到的粗粒度的更新限制并没有想象中的大。事实上,Spark论文中阐述了RD
其拖到右侧的操作界面中并将其连接。 例如采用Kafka Source、File Channel和HDFS Sink,如图3所示。 图3 Flume配置工具示例 双击对应的source、channel以及sink,根据实际环境并参考表1设置对应的配置参数。 如果想在之前的“properties
请确保当前用户对合并的表具有owner权限。 合并前请确保HDFS上有足够的存储空间,至少需要被合并表大小的一倍以上。 合并表数据的操作需要单独进行,在此过程中读表,可能临时出现找不到文件的问题,合并完成后会恢复正常;另外在合并过程中请注意不要对相应的表进行写操作,否则可能会产生数据一致性问题。
MRS管理控制台:用户可以通过MRS管理控制台的集群管理页面,进行集群概览查看、节点管理、组件管理、告警管理、文件管理、作业管理等操作。 MRS集群Manager:Manager是MRS的运维管理系统,为部署在集群内的服务提供统一的集群管理能力。 MRS管理控制台与MRS集群Manager页面的区别和联系请参考表1。
集群管理类 如何查看所有集群? 如何查看MRS服务的操作日志信息? 如何查看MRS集群配置信息? 如何在MRS集群中手动添加组件? 如何取消集群风险告警的消息通知? 为什么MRS集群显示的资源池内存小于实际集群内存? MRS集群安装的Python版本是多少? 如何上传本地文件到集群内节点?
通过选择集群所建的区域及使用的云资源规格,一键式购买适合企业业务的MRS集群。MRS服务会根据用户选择的集群类型、版本和节点规格,帮助客户自动完成华为云企业级大数据平台的安装部署和参数调优。 MRS服务为客户提供完全可控的大数据集群,客户在创建时可设置虚拟机的登录方式(密码或者
集中出现的不同值的个数。例如“国家”是一个维度,如果有200个不同的值,那么此维度的基数就是200。 根据官方建议和实践经验,在维度基数小于1万的时候,对维度字段做LowCardinality编码,导入性能会有略微下降,查询性能提升明显,数据存储空间下降明显。 在默认的情况下,声
退服和入服MRS角色实例 MRS集群支持将数据存储在不同Core节点,某个Core或Task节点出现问题时,可能导致整个集群状态显示为“异常”,用户可以在MRS指定角色实例退服,使退服的角色实例不再提供服务。 在排除故障后,可以将已退服的角色实例入服。 MRS集群支持退服、入服的角色实例包括:
MRS支持什么类型的分布式存储? 问: MRS集群支持什么类型的分布式存储?有哪些版本? 答: MRS集群内使用主流的大数据Hadoop,目前支持Hadoop 3.x版本,并且随集群演进更新版本。 同时MRS也支持用户将数据存储在OBS服务中,使用MRS集群仅作数据计算处理的存算分离模式。
HDFS是Hadoop的分布式文件系统(Hadoop Distributed File System),实现大规模数据可靠的分布式读写。HDFS针对的使用场景是数据读写具有“一次写,多次读”的特征,而数据“写”操作是顺序写,也就是在文件创建时的写入或者在现有文件之后的添加操作。HDFS
Hive支持ZSTD压缩格式 ZSTD(全称为Zstandard)是一种开源的无损数据压缩算法,其压缩性能和压缩比均优于当前Hadoop支持的其他压缩格式,本特性使得Hive支持ZSTD压缩格式的表。Hive支持基于ZSTD压缩的存储格式有常见的ORC,RCFile,TextFile,JsonFile
指定日志路径。 -v 指定日志中的额外信息。 -m <num_maps> 最大的同时运行的执行拷贝的任务数。 -numListstatusThreads 构建被拷贝文件的文件列表时所用的线程数,该选项会提高distcp的运行速度。 -overwrite 覆盖目标位置的文件。 -update