检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Value就是对应存储的二进制数据对象。 Column Family 列族,一个表在水平方向上由一个或多个Column Family组成。一个CF(Column Family)可以由任意多个Column组成。
准备本地应用开发环境 在进行二次开发时,要准备的开发和运行环境如表1所示。 表1 开发环境 准备项 说明 操作系统 开发环境:Windows系统,支持Windows 7以上版本。 运行环境:Windows系统或Linux系统。 如需在本地调测程序,运行环境需要和集群业务平面网络互通
快速购买MRS集群 MRS包含了多种大数据组件,用户可基于企业大数据场景的业务场景、数据类型、可靠性要求以及资源预算等要求合理选择集群类型。 本章节以HBase查询集群为例介绍如何快速购买一个MRS集群。HBase集群使用Hadoop和HBase组件提供一个稳定可靠,性能优异、可伸缩
准备本地应用开发环境 在进行应用开发时,要准备的开发和运行环境如表1所示。 表1 开发环境 准备项 说明 操作系统 开发环境:Windows系统,支持Windows7以上版本。 运行环境:Linux系统。 如需在本地调测程序,运行环境需要和集群业务平面网络互通。 安装JDK 开发和运行环境的基本配置
在Linux环境中编包并运行Spark程序 操作场景 在程序代码完成开发后,您可以上传至Linux客户端环境中运行应用。使用Scala或Java语言开发的应用程序在Spark客户端的运行步骤是一样的。 使用Python开发的Spark应用程序无需打包成jar,只需将样例工程复制到编译机器上即可
调测OpenTSDB应用 操作场景 在程序代码完成开发后,您可以在Windows开发环境中运行应用。 操作步骤 在Windows上配置集群的IP与主机名映射关系。登录集群后台,执行命令cat /etc/hosts后,把hosts文件中的IP与主机名映射关系拷贝到“C:\Windows
当选择保留作业日志到OBS或HDFS时,系统在作业执行结束后,将日志压缩并存储到对应路径。因此,此类作业运行结束后,作业状态仍然为“运行中”,需等日志存储成功后,状态变更为“已完成”。日志存储花费时间依赖于日志大小,需要数分钟以上。 父主题: 提交MRS作业
算子逻辑,用户代码(如UDF)正常对象占用内存的地方。 taskmanager.memory.task.off-heap.size:0 默认值为0,task使用的off heap内存。
图3 添加规则 “规则名称”:default-expand-2 “如果”:在下拉框中选择规则对象及约束要求,例如YARNAppRunning大于75 “持续”:1个五分钟 “添加”:1个节点 “冷却时间”:20分钟 单击“确定”。
因为单次函数调用就要处理掉一个partition所有的数据,如果内存不够,垃圾回收时是无法回收掉太多对象的,很可能出现OOM异常。所以使用这类操作时要慎重! 使用filter之后进行coalesce操作。
准备本地应用开发环境 Hive组件可以使用JDBC/HCatalog/Python/Python3接口进行应用开发。 准备JDBC/HCatalog开发环境 表1 JDBC/HCatalog开发环境 准备项 说明 操作系统 开发环境:Windows系统,支持Windows7以上版本
DataSet DataSet是一个由特定域的对象组成的强类型集合,可通过功能或关系操作并行转换其中的对象。 每个Dataset还有一个非类型视图,即由多个列组成的DataSet,称为DataFrame。
org.apache.hadoop.yarn.server.resourcemanager.monitor.capacity.ProportionalCapacityPreemptionPolicy yarn.resourcemanager.monitor.capacity.preemption.observe_only
MRS 1.9.2.3及之后版本补丁说明 MRS 1.9.2.5补丁说明 表1 补丁基本信息 补丁号 MRS 1.9.2.5 发布时间 2024-05-30 安装前处理 安装此补丁前,如果之前有装过MRS_1x2x_Patch_Diskmgt_20230308.tar.gz补丁,需要先卸载该补丁
number of splits:2 16/07/12 17:07:18 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1468241424339_0006 16/07/12 17:07:18 INFO
选择此参数值,还需要配置以下参数: “目的端路径”:填写备份文件在HDFS中保存的目录。不支持填写HDFS中的隐藏目录,例如快照或回收站目录;也不支持默认的系统目录。 “最大备份数”:填写备份目录中可保留的备份文件集数量。
在Linux环境中编包并运行Spark程序 操作场景 在程序代码完成开发后,您可以上传至Linux客户端环境中运行应用。使用Scala或Java语言开发的应用程序在Spark客户端的运行步骤是一样的。 使用Python开发的Spark应用程序无需打包成jar,只需将样例工程复制到编译机器上即可
number of splits:2 16/07/12 17:07:18 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1468241424339_0006 16/07/12 17:07:18 INFO
MRS可以做什么? 问: MapReduce Service(MRS)可以做什么? 答: MapReduce服务(MapReduce Service)为客户提供ClickHouse、Spark、Flink、Kafka、HBase等Hadoop生态的高性能大数据引擎,支持数据湖、数据仓库
在Windows中调测Impala JDBC应用 JDBC客户端的命令行形式运行 运行样例。 依照准备Impala JDBC客户端中导入和修改样例后,并从集群Manager获取到keytab文件放置到样例工程的conf下(普通模式集群可忽略),即“impala-examples/conf