检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
算子输入、输出参数设置 输入类型 输出类型 表输入 文件输出 图3 算子操作方法示意 设置数据保存信息并运行作业 单击“下一步”,进入“输出设置”界面,在“存储类型”中选择“HDFS”,设置数据保存方式。 表4 输出设置参数 参数名 说明 示例 文件类型 文件导入后保存的类型: “TEXT_FILE”:导入文本文件并保存为文本文件
k)以完全并行的方式来处理。框架会对map的输出先进行排序,然后把结果输入给reduce任务,最后返回给客户端。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。 MapReduce主要特点如下: 大规模并行计算 适用于大型数据集
中(毫秒级) 高(毫秒内~毫秒级) 数据量 小,建议单个TM保持1GB以内 大,TB级 中,GB级 存储资源 内存消耗大,单个TM全量存储 外置存储,无存储资源消耗 各TM分散存储,内存+磁盘存储 时效性 周期性数据加载,时效低 相对高 高 关联数据结果 低 中 - 大数据量的维度表建议采用HBase
Storm-Kafka开发指引 操作场景 本文档主要说明如何使用Storm-Kafka工具包,完成Storm和Kafka之间的交互。包含KafkaSpout和KafkaBolt两部分。KafkaSpout主要完成Storm从Kafka中读取数据的功能;KafkaBolt主要完成Storm向Kafka中写入数据的功能。
基于Python的Hive样例程序 功能介绍 本章节介绍如何使用Python连接Hive执行数据分析任务。 样例代码 使用Python方式提交数据分析任务,参考样例程序中的“hive-examples/python-examples/pyCLI_sec.py”。 导入HAConnection类。
基于Python3的Hive样例程序 功能介绍 本章节介绍如何使用Python3连接Hive执行数据分析任务。 样例代码 以下分析任务示例在“hive-examples/python3-examples/pyCLI_nosec.py”文件中。 导入hive类 from pyhive
Python访问Hive样例程序 功能介绍 本章节介绍如何使用Python连接Hive执行数据分析任务。 样例代码 使用Python方式提交数据分析任务,参考样例程序中的“hive-examples/python-examples/pyCLI_sec.py”。 导入HAConnection类。
使用Hue WebUI访问HDFS文件失败 问题 在使用Hue WebUI访问HDFS文件时,报如下图所示无法访问的错误提示,该如何处理? 回答 查看登录Hue WebUI的用户是否具有“hadoop”用户组权限。 查看HDFS服务是否安装了HttpFS实例且运行正常。如果未安装
Hive常见问题 如何删除所有HiveServer中的永久函数 为什么已备份的Hive表无法执行drop操作 如何在Hive自定义函数中操作本地文件 如何强制停止Hive执行的MapReduce任务 Hive不支持复杂类型字段名称中包含哪些特殊字符 如何对Hive表大小数据进行监控
不可用如何处理? 如何切换访问MRS Manager方式? 为什么在Manager中找不到用户管理页面? Hue WebUI界面中下载的Excel无法打开如何处理?
查询特定标签的集群列表 功能介绍 使用标签过滤集群。 集群默认按照创建时间倒序,集群tag也按照创建时间倒序。 接口约束 无 调用方法 请参见如何调用API。 URI POST /v1.1/{project_id}/clusters/resource_instances/action
已经超过了impalad的xmx 内存,Impalad节点持续报Full GC,一直未完全同步元数据,SQL一直处于Created状态,该如何解决? 回答 建议调整Impalad的xmx内存大于或等于Catalog的xmx内存。 登录Manager界面,选择“集群 > 服务 > Impala
删除Hive on HBase表中的单行记录 操作场景 由于底层存储系统的原因,Hive并不能支持对单条表数据进行删除操作,但在Hive on HBase功能中,MRS Hive提供了对HBase表的单条数据的删除功能,通过特定的语法,Hive可以将自己的HBase表中符合条件的一条或者多条数据清除。
技能开发和查询设计上的投资,Impala提供了与Hive查询语言(HiveQL)的高度兼容性。 由于Impala使用与Hive相同的元数据存储来记录有关表结构和属性的信息,因此Impala可以访问通过本机Impala CREATE TABLE命令定义的表,也可以访问使用Hive数据定义语言(DDL)创建的表。
Conditions”的权限仅限制表权限,不能生成HDFS/OBS存储源端的权限。 级联授权生成的HDFS/OBS存储源端的权限弱于HDFS Ranger策略的权限,即如果已经对表的HDFS存储源设置了HDFS Ranger权限,则级联权限将不会生效。 不支持对存储源为OBS的表级联授权后直接进行alte
配置Doris对接Hudi数据源 在MRS集群元数据存储在Hive MetaStore的场景中,Doris 2.0.13版本支持通过Catalog的方式对接Hudi 0.15.0版本数据源,支持对接Hudi所有的数据字段类型。 该操作适用于MRS 3.5.0版本。 Doris支持查询的Hudi表类型
IoTDB日志介绍 日志描述 日志路径:IoTDB相关日志的默认存储路径为“/var/log/Bigdata/iotdb/iotdbserver”(运行日志)、“/var/log/Bigdata/audit/iotdb/iotdbserver”(审计日志)。 日志归档规则:IoT
JobGateway日志介绍 日志描述 日志路径:JobGateway相关日志的存储路径为:“/var/log/Bigdata/job-gateway/”。 日志归档规则:JobGateway的运行日志启动了自动压缩归档功能,当日志大小超过20MB的时候(此日志文件大小可进行配置
Guardian日志介绍 日志描述 日志路径:Guardian相关日志的存储路径为:“/var/log/Bigdata/guardian/token-server”。 日志归档规则:Guardian的运行日志启动了自动压缩归档功能,当日志大小超过50MB的时候(此日志文件大小可进
Flume常见问题 如何查看Flume日志 如何在Flume配置文件中使用环境变量 如何开发Flume第三方插件 如何配置Flume定制脚本 父主题: 使用Flume