检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
因此,MRS大数据集群提供了完整的企业级大数据多租户解决方案。多租户是MRS大数据集群中的多个资源集合(每个资源集合是一个租户),具有分配和调度资源(资源包括计算资源和存储资源)的能力。 特性优势 合理配置和隔离资源 租户之间的资源是隔离的,一个租户对资源的使用不影响其他租户,保证了每个租户根据业务需求去配置相关的资源,可提高资源利用效率。
算子输入、输出参数设置 输入类型 输出类型 表输入 文件输出 图3 算子操作方法示意 设置数据保存信息并运行作业 单击“下一步”,进入“输出设置”界面,在“存储类型”中选择“HDFS”,设置数据保存方式。 表4 输出设置参数 参数名 说明 示例 文件类型 文件导入后保存的类型: “TEXT_FILE”:导入文本文件并保存为文本文件
format”一致。 yyyyMMdd file.format.iscompressed 待导入的文件是否为压缩文件。 false storage.type 存储类型。待导入文件最终保存的类型,分别有HDFS、HBase、Hive等。 HDFS schedule-tool工具支持同时配置多个作业。配置多个作业时,表2中“job
taken: 0.18 seconds, Fetched 1 row(s) 查看Spark应用运行结果。 通过指定文件查看运行结果数据。 结果数据的存储路径和格式由Spark应用程序指定。 通过Web页面查看运行情况。 登录Manager主页面。在服务中选择Spark2x。 进入Spark
权限 策略中针对资源可配置各种访问条件,例如文件的读写,具体可以配置允许条件、拒绝条件以及例外条件等。 权限机制 MRS集群采用LDAP存储用户和用户组的数据;角色的定义信息保存在关系数据库中,角色和权限的对应关系则保存在组件侧。 MRS使用Kerberos进行统一认证。 用户权限校验流程大致如下:
请参考修改集群服务配置参数进入Kafka服务全部配置页面。 常用参数 表1 参数说明 配置参数 说明 缺省值 log.dirs Kafka数据存储目录列表,以逗号分隔多个目录。 %{@auto.detect.datapart.bk.log.logs} KAFKA_HEAP_OPTS
HTML输入 文件输出 固定宽度文件输入 文件输出 图3 算子操作方法示意 设置数据保存信息并运行作业 单击“下一步”,进入“输出设置”界面,在“存储类型”中选择“HDFS”,设置数据保存方式。 表4 输出设置参数 参数名 说明 示例 文件类型 文件导入后保存的类型: “TEXT_FILE”:导入文本文件并保存为文本文件
算子输入、输出参数设置 输入类型 输出类型 表输入 文件输出 图3 算子操作方法示意 设置数据保存信息并运行作业 单击“下一步”,进入“输出设置”界面,在“存储类型”中选择“HDFS”,设置数据保存方式。 表4 输出设置参数 参数名 说明 示例 文件类型 文件导入后保存的类型: “TEXT_FILE”:导入文本文件并保存为文本文件
Spark on HBase场景的Java/Scala/Python示例程序。 本工程应用程序以数据源的方式去使用HBase,将数据以Avro格式存储在HBase中,并从中读取数据以及对读取的数据进行过滤等操作。 sparknormal-examples/SparkOnHbasePythonExample
否则会导致IoTDB启动失败。 查询场景调优举例:如果查询的范围比较大,单个序列10000个点以上,JVM分配内存的20% / 序列数 > 160K,即为默认配置下存储引擎对查询最友好的状态。 序列和内存大小举例:500万序列,对应内存配置为:-Xms128G -Xmx128G write_read_sc
e,则删除Hetu-HBase表的同时,会删除HBase数据源上的表。 HBase数据类型映射 HBase是基于字节的分布式存储系统,它将所有数据类型存储为字节数组。要在HetuEngine中表示HBase数据,需要先在HetuEngine中通过创建映射表的方式为HetuEngi
下图中的Node1和Node2对应为集群配置中的host1和host2主机节点。 ClickHouse集群创建成功后,默认会创建3个Zookeeper节点,ZooKeeper中存储了ClickHouse的表在复制过程中的元数据信息。 ZooKeeper节点信息可以参考config.xml文件内容,具体路径在“${BI
format”一致。 yyyyMMdd file.format.iscompressed 待导入的文件是否为压缩文件。 false storage.type 存储类型。待导入文件最终保存的类型,分别有HDFS、HBase、Hive等。 HDFS schedule-tool工具支持同时配置多个作业。配置多个作业时,表2中“job
x及以后版本。 修改集群节点机架信息对系统的影响 修改主机机架名称,将影响HDFS的副本存放策略、Yarn的任务分配及Kafka的Partition存储位置。修改后需重启HDFS、Yarn和Kafka,使配置信息生效。 不合理的机架配置会导致集群的节点之间的负载(包括CPU、内存、磁盘、网
taken: 0.18 seconds, Fetched 1 row(s) 查看Spark应用运行结果。 通过指定文件查看运行结果数据。 结果数据的存储路径和格式由Spark应用程序指定。 通过Web页面查看运行情况。 登录Manager主页面。在服务中选择Spark2x。 进入Spark
行变慢、页面响应迟钝、接口响应超时等),甚至出现崩溃或错误。 系统故障:慢盘故障可能会导致系统故障,从而导致客户的业务受到影响。如果慢盘上存储的数据包含关键信息,可能会导致系统崩溃或数据丢失。 可能原因 磁盘老化或者磁盘坏道。 处理步骤 检查磁盘状态。 在FusionInsight
配置OBS的AK/SK 保存配置并重启Hive服务。 在beeline中直接使用OBS的目录进行访问。例如,执行如下命令创建Hive表并指定数据存储在test-bucket文件系统的test_obs目录中。 cd 客户端安装目录 source bigdata_env kinit 组件操
详细介绍请参见通过成本标签维度查看成本分配。 使用成本单元进行成本分配 企业可以使用成本中心的“成本单元”来拆分公共成本。公共成本是指多个部门共享的计算、网络、存储或资源包产生的云成本,或无法直接通过企业项目、成本标签分配的云成本。这些成本不能直接归属于单一所有者,因此不能直接归属到某一类别。使用拆分
执行结果: 未开启UDF重用时的返回值: a,true,c 因为在WHERE条件中IfExist被执行一次,并且结果为false,所以在其缓存中已存储该数据,在SELECT中再次执行时即返回true。 开启UDF重用时的返回值: a,false,c 父主题: 管理FlinkServer作业
SQL语言,用于对结构化数据进行操作。使用Spark SQL,可以访问不同的数据库,用户可以从这些数据库中提取数据,处理并加载到不同的数据存储中。 本实践演示如何使用MRS Spark SQL访问GaussDB(DWS)数据。 方案架构 Spark的应用运行架构如图1所示,运行流程如下所示: