华为云用户手册

MapReduce服务 MRS-管理Loader连接（MRS 3.x及之后版本）:Loader连接配置说明

Loader连接配置说明 Loader支持以下多种连接： generic-jdbc-connector：参数配置请参见表1。 ftp-connector：参数配置请参见表2。 sftp-connector：参数配置请参见表3。 hdfs-connector：参数配置请参见表4。 oracle-connector：参数配置请参见表5。 mysql-fastpath-connector：参数配置请参见表7。 oracle-partition-connector：参数配置请参见表6。

MapReduce服务 MRS
MapReduce服务 MRS-Kafka集群监控管理:查看Consumers信息

查看Consumers信息登录KafkaManager的WebUI界面。在集群列表页面单击对应集群名称进入集群Summary页面。单击“Consumers”查看当前集群的Consumers列表及每个Consumer的消费信息。图5 Consumers列表单击Consumer的名称查看消费的Topic列表。图6 Consumer消费的Topic列表单击Consumer下Topic列表中的Topic名称，查看该Consumer对Topic的具体消费情况。图7 Consumer对Topic的具体消费情况

MapReduce服务 MRS
MapReduce服务 MRS-KafkaManager介绍

KafkaManager介绍 KafkaManager是Apache Kafka的管理工具，提供Kafka集群界面化的Metric监控和集群管理。通过KafkaManager可以：支持管理多个Kafka集群支持界面检查集群状态（主题，消费者，偏移量，分区，副本，节点）支持界面执行副本的leader选举使用选择生成分区分配以选择要使用的分区方案支持界面执行分区重新分配（基于生成的分区方案）支持界面选择配置创建主题（支持多种Kafka版本集群）支持界面删除主题（仅支持0.8.2+并设置了delete.topic.enable = true）支持批量生成多个主题的分区分配，并可选择要使用的分区方案支持批量运行重新分配多个主题的分区支持为已有主题增加分区支持更新现有主题的配置可以为分区级别和主题级别度量标准启用JMX查询可以过滤掉zookeeper中没有ids / owner /＆offsets /目录的使用者。父主题：使用KafkaManager

MapReduce服务 MRS 使用KafkaManager
MapReduce服务 MRS-准备MySQL数据库连接的驱动:操作步骤

操作步骤 MRS 3.x之前版本：从MySQL官网下载MySQL jdbc驱动程序“mysql-connector-java-5.1.21.jar”，具体MySQL jdbc驱动程序选择参见下表。表1 版本信息 jdbc驱动程序版本 MySQL版本 Connector/J 5.1 MySQL 4.1、MySQL 5.0、MySQL 5.1、MySQL 6.0 alpha Connector/J 5.0 MySQL 4.1、MySQL 5.0 servers、distributed transaction (XA) Connector/J 3.1 MySQL 4.1、MySQL 5.0 servers、MySQL 5.0 except distributed transaction (XA) Connector/J 3.0 MySQL 3.x、MySQL 4.1 将“mysql-connector-java-5.1.21.jar”上传至MRS master 主备节点loader安装目录针对MRS 3.x之前版本，上传至“/opt/Bigdata/MRS_XXX/install/ FusionInsight -Sqoop-1.99.7/FusionInsight-Sqoop-1.99.7/server/jdbc/” 其中“XXX”为MRS版本号，请根据实际情况修改。修改“mysql-connector-java-5.1.21.jar”包属主为“omm:wheel”。修改配置文件“jdbc.properties”。将“MYSQL”的键值修改为上传的jdbc驱动包名“mysql-connector-java-5.1.21.jar”，例如：MYSQL=mysql-connector-java-5.1.21.jar。重启Loader服务。

MapReduce服务 MRS
MapReduce服务 MRS-Loader连接配置说明:OBS连接

OBS连接 OBS连接是Loader与OBS进行数据交换的通道，配置参数如表1所示。表1 obs-connector配置参数说明名称指定一个Loader连接的名称。 OBS服务器输入OBS endpoint地址，一般格式为OBS.Region.DomainName。例如执行如下命令查看OBS endpoint地址： cat /opt/Bigdata/apache-tomcat-7.0.78/webapps/web/WEB-INF/classes/cloud-obs.properties 端口访问OBS数据的端口。默认值为“443”。访问标识(AK) 表示访问OBS的用户的访问密钥AK。密钥(SK) 表示访问密钥对应的SK。

MapReduce服务 MRS
MapReduce服务 MRS-Loader连接配置说明:文件服务器连接

文件服务器连接文件服务器连接包含FTP连接和SFTP连接，是Loader与文件服务器进行数据交换的通道，配置参数如表4所示。表4 ftp-connector或sftp-connector配置参数说明名称指定一个Loader连接的名称。主机名或IP 输入文件服务器的访问地址，可以是服务器的主机名或者IP地址。端口访问文件服务器的端口。 FTP协议请使用端口“21”。 SFTP协议请使用端口“22”。用户名表示文件服务器的用户名称。密码表示此用户对应的密码。

MapReduce服务 MRS
MapReduce服务 MRS-Loader连接配置说明:关系型数据库连接

关系型数据库连接关系型数据库连接是Loader与关系型数据库进行数据交换的通道，配置参数如表2所示。部分参数需要单击“显示高级属性”后展开，否则默认隐藏。表2 generic-jdbc-connector配置参数说明名称指定一个Loader连接的名称。数据库类型表示Loader连接支持的数据，可以选择“ORACLE”、“MYSQL”和“MPPDB”。数据库服务器表示数据库的访问地址，可以是IP地址或者域名。端口表示数据库的访问端口。数据库名称表示保存数据的具体数据库名。用户名表示连接数据库使用的用户名称。密码表示此用户对应的密码。需要与实际密码保持一致。

MapReduce服务 MRS
MapReduce服务 MRS-从零开始使用CarbonData:操作步骤

操作步骤连接到Spark CarbonData。根据业务情况，准备好客户端，使用root用户登录安装客户端的节点。例如在Master2节点更新客户端，则在该节点登录客户端，具体参见使用MRS客户端。切换用户与配置环境变量。 sudo su - omm source /opt/client/bigdata_env 启用Kerberos认证的集群，执行以下命令认证用户身份。未启用Kerberos认证集群无需执行。 kinit Spark组件用户名用户需要加入用户组hadoop、hive，主组hadoop。执行以下命令，连接到Spark运行环境： spark-beeline 执行命令创建CarbonData表。 CarbonData表可用于加载数据和执行查询操作，例如执行以下命令创建CarbonData表： CREATE TABLE x1 (imei string, deviceInformationId int, mac string, productdate timestamp, updatetime timestamp, gamePointId double, contractNumber double) STORED BY 'org.apache.carbondata.format' TBLPROPERTIES ('DICTIONARY_EXCLUDE'='mac','DICTIONARY_INCLUDE'='deviceInformationId'); 命令执行结果如下： +---------+--+| result |+---------+--++---------+--+No rows selected (1.551 seconds) 从 CS V文件加载数据到CarbonData表。根据所要求的参数运行命令从CSV文件加载数据，且仅支持CSV文件。LOAD命令中配置的CSV列名，需要和CarbonData表列名相同，顺序也要对应。CSV文件中的数据的列数，以及数据格式需要和CarbonData表匹配。文件需要保存在HDFS中。用户可以将文件上传到OBS，并在MRS管理控制台“文件管理”将文件从OBS导入HDFS，具体请参考导入导出数据。如果集群启用了Kerberos认证，则需要在工作环境准备CSV文件，然后可以使用开源HDFS命令，参考5将文件从工作环境导入HDFS，并设置Spark组件用户在HDFS中对文件有读取和执行的权限。例如，HDFS的“tmp”目录有一个文件“data.csv”，内容如下： x123,111,dd,2017-04-20 08:51:27,2017-04-20 07:56:51,2222,33333 执行导入命令： LOAD DATA inpath 'hdfs://hacluster/tmp/data.csv' into table x1 options('DELIMITER'=',','QUOTECHAR'='"','FILEHEADER'='imei, deviceinformationid,mac,productdate,updatetime,gamepointid,contractnumber'); 命令执行结果如下： +---------+--+| Result |+---------+--++---------+--+No rows selected (3.039 seconds) 在CarbonData中查询数据。获取记录数为了获取在CarbonData table中的记录数，可以执行以下命令。 select count(*) from x1; 使用Groupby查询为了获取不重复的“deviceinformationid”记录数，可以执行以下命令。 select deviceinformationid,count (distinct deviceinformationid) from x1 group by deviceinformationid; 使用条件查询为了获取特定deviceinformationid的记录，可以执行以下命令。 select * from x1 where deviceinformationid='111'; 在执行数据查询操作后，如果查询结果中某一列的结果含有中文字等其他非英文字符，会导致查询结果中的列不能对齐，这是由于不同语言的字符在显示时所占的字宽不尽相同。执行以下命令退出Spark运行环境。 !quit

MapReduce服务 MRS
MapReduce服务 MRS-管理Storm拓扑:操作步骤

操作步骤访问Storm的WebUI，请参考访问Storm的WebUI。在“Topology summary”区域，单击指定的拓扑名称。通过“Topology actions”管理Storm拓扑。激活拓扑单击“Activate”，转化当前拓扑为激活状态。去激活拓扑单击“Deactivate”，转化当前拓扑为去激活状态。重部署拓扑单击“Rebalance”，将当前拓扑重新部署执行，需要输入执行重部署的等待时间，单位为秒。一般在集群中节点数发生变化时进行，以更好利用集群资源。删除拓扑单击“Kill”，将当前拓扑删除，需要输入执行操作的等待时间，单位为秒。采样、停止采样拓扑消息单击“Debug”，在弹出窗口输入流数据采样消息的数值，单位为百分比，表示从开始采样到停止采样这段时间内所有数据的采集比例。例如输入“10”，则采集比例为10%。如果需要停止采样，则单击“Stop Debug”。只有在提交拓扑时启用采样功能，才支持此功能。查看采样处理数据，请参见查看Storm拓扑日志。修改拓扑日志级别单击“Change Log Level”，可以为Storm日志指定新的日志信息级别。显示拓扑结构图。在“Topology Visualization”区域单击“Show Visualization”，执行拓扑可视化操作。

MapReduce服务 MRS
MapReduce服务 MRS-CarbonData表简介:支持的数据类型

支持的数据类型 CarbonData表支持以下数据类型： Int String BigInt Decimal Double TimeStamp 表1对所支持的数据类型和对应的范围进行了详细说明。表1 CarbonData数据类型数据类型描述 Int 4字节有符号整数，从-2,147,483,648到2,147,483,647。说明：非字典列如果是Int类型，会在内部存储为BigInt类型。 String 最大支持字符长度为100000。 BigInt 使用64-bit存储数据，支持从-9,223,372,036,854,775,808到9,223,372,036,854,775,807。 Decimal 默认值是(10,0)，最大值是(38,38)。说明：当进行带过滤条件的查询时，为了得到准确的结果，需要在数字后面加上BD。例如，select * from carbon_table where num = 1234567890123456.22BD。 Double 使用64-bit存储数据，从4.9E-324到1.7976931348623157E308。 TimeStamp 默认格式为“yyyy-MM-dd HH:mm:ss”。所有Integer类型度量均以BigInt类型进行处理与显示。

MapReduce服务 MRS
MapReduce服务 MRS-创建CarbonData表:使用自定义列创建表

使用自定义列创建表可通过指定各列及其数据类型来创建表。启用Kerberos认证的分析集群创建CarbonData表时，如果用户需要在默认数据库“default”以外的数据库创建新表，则需要在Hive角色管理中为用户绑定的角色添加指定数据库的“Create”权限。命令示例： CREATE TABLE IF NOT EXISTS productdb.productSalesTable ( productNumber Int, productName String, storeCity String, storeProvince String, revenue Int) STORED BY 'org.apache.carbondata.format' TBLPROPERTIES ( 'table_blocksize'='128', 'DICTIONARY_EXCLUDE'='productName', 'DICTIONARY_INCLUDE'='productNumber'); 上述命令所创建的表的详细信息如下：

MapReduce服务 MRS
MapReduce服务 MRS-使用客户端提交Storm拓扑:操作步骤

操作步骤根据业务情况，准备好客户端，登录安装客户端的节点。请根据客户端所在位置，参考安装客户端章节，登录安装客户端的节点。执行以下命令，设置拓扑的jar包权限。例如修改“/opt/storm/topology.jar”的权限： chmod 600 /opt/storm/topology.jar 执行以下命令，切换到客户端目录，例如“/opt/client”。 cd /opt/client 执行以下命令，配置环境变量。 source bigdata_env 若安装了Storm多实例，在使用Storm命令提交拓扑时，请执行以下命令加载具体实例的环境变量，否则请跳过此步骤。例如，Storm-2实例： source Storm-2/component_env 启用Kerberos认证的集群，执行以下命令认证用户身份。未启用Kerberos认证的集群无需执行。 kinit Storm用户 MRS 3.x之前版本：执行以下命令，提交Storm拓扑。 storm jar 拓扑包路径拓扑Main方法的类名称拓扑名称界面提示以下信息表示提交成功： Finished submitting topology: topo1 如果需要拓扑支持采样消息，则还需要增加参数“topology.debug”和“topology.eventlogger.executors”。拓扑如何处理数据是拓扑自身行为。样例拓扑随机生成字符并分隔字符串，需要查看处理情况时，请启用采样功能并参见查看Storm拓扑日志。 MRS 3.x及后续版本：执行以下命令，提交拓扑任务。 storm jar topology-jar-path class 入参列表 topology-jar-path：表示拓扑的jar包所在路径。 class：表示拓扑使用的main方法所在类名称。入参列表：表示拓扑使用的main方法入参。例如，提交WordCount计算的拓扑“/opt/storm/topology.jar”并以拓扑命名作为入参，执行： storm jar /opt/storm/topology.jar com.huawei.storm.example.WordCountTopology topology1 显示以下信息表示拓扑提交成功： Finished submitting topology: topology1 登录认证用户必须与所加载环境变量（component_env）一一对应，否则使用storm命令提交拓扑任务出错。加载客户端环境变量且对应用户登录成功后，该用户可以在任意storm客户端下执行storm命令来提交拓扑任务，但提交拓扑命令执行完成后，提交成功的拓扑仍然在用户所对应的Storm集群中，不会出现在其他Storm集群中。如果修改了集群域名，需要在提交拓扑前重新设置域名信息，进入cql语句执行命令，例如：set "kerberos.domain.name" = "hadoop.huawei.com"。执行以下命令，查看Storm中的拓扑。启用Kerberos认证的集群，只有属于“stormadmin”或“storm”的用户可以查看所有拓扑。 storm list

MapReduce服务 MRS
MapReduce服务 MRS-Hue日志介绍:日志级别

日志级别 Hue提供了如表2所示的日志级别。日志的级别优先级从高到低分别是ERROR、WARN、INFO、DEBUG，程序会打印高于或等于所设置级别的日志，设置的日志等级越高，打印出来的日志就越少。表2 日志级别级别描述 ERROR ERROR表示系统运行的错误信息。 WARN WARN表示当前事件处理存在异常信息。 INFO INFO表示记录系统及各事件正常运行状态信息。 DEBUG DEBUG表示记录系统及系统的调试信息。如果您需要修改日志级别，请执行如下操作：参考修改集群服务配置参数进入Hue服务“全部配置”页面。在左侧导航栏选择需修改的角色所对应的“日志”菜单。在右侧选择所需修改的日志级别。保存配置，在弹出窗口中单击“确定”使配置生效。重新启动配置过期的服务或实例以使配置生效。

MapReduce服务 MRS
MapReduce服务 MRS-Hue日志介绍:日志描述

日志描述日志路径：Hue相关日志的默认存储路径为“/var/log/Bigdata/hue”（运行日志）,“/var/log/Bigdata/audit/hue”（审计日志）。日志归档规则：Hue的日志启动了自动压缩归档功能，默认情况下，当“access.log”、“error.log”、“runcpserver.log”和“hue-audits.log”大小超过5MB的时候，会自动压缩。最多保留最近的20个压缩文件，压缩文件保留个数和压缩文件阈值可以配置。表1 Hue日志列表日志类型日志文件名描述运行日志 access.log 访问日志。 error.log 错误日志。 gsdb_check.log gaussDB检查日志。 kt_renewer.log Kerberos认证日志。 kt_renewer.out.log Kerberos认证日志的异常输出日志。 runcpserver.log 操作记录日志。 runcpserver.out.log 进程运行异常日志。 supervisor.log 进程启动日志。 supervisor.out.log 进程启动异常日志。 dbDetail.log 数据库初始化日志 initSecurityDetail.log keytab文件下载初始化日志。 postinstallDetail.log Hue服务安装后工作日志。 prestartDetail.log Prestart日志。 statusDetail.log Hue服务健康状态日志。 startDetail.log 启动日志。 get-hue-ha.log Hue HA状态日志。 hue-ha-status.log Hue HA状态监控日志。 get-hue-health.log Hue健康状态日志。 hue-health-check.log Hue健康检查日志。 hue-refresh-config.log Hue配置刷新日志。 hue-script-log.log Manager界面的Hue操作日志。 hue-service-check.log Hue服务状态监控日志。 db_pwd.log Hue连接DBService数据库密码修改日志 modifyDBPwd_日期.log - watch_config_update.log 参数更新日志。审计日志 hue-audits.log 审计日志。

MapReduce服务 MRS
MapReduce服务 MRS-在Hue WebUI使用文件浏览器:访问文件浏览器（File Browser）

访问文件浏览器（File Browser）访问Hue WebUI。单击，进入“File Browser”。默认进入当前登录用户的主目录。文件浏览器将显示目录中的子目录或文件以下信息：表1 HDFS文件属性介绍属性名描述 “Name” 表示目录或文件的名称。 “Size” 表示文件的大小。 “User” 表示目录或文件的属主。 “Group” 表示目录或文件的属组。 “Permissions” 表示目录或文件的权限设置。 “Date” 表示目录或文件创建时间。在搜索框输入关键字，系统会在当前目录自动搜索目录或文件。清空搜索框的内容，系统会重新显示所有目录和文件。

MapReduce服务 MRS 使用Hue（MRS 3.x之前版本）
MapReduce服务 MRS-在Hue WebUI使用文件浏览器:执行动作

执行动作单击，选择一个或多个目录或文件。单击“Actions”，在弹出菜单选择一个操作。 “Rename”：表示重新命名一个目录或文件。 “Move”：表示移动文件，在“移至”选择新的目录并单击“移动”完成移动。 “Copy”：表示复制选中的文件或目录。 “Change permissions”：表示修改选中目录或文件的访问权限。可以为属主、属组和其他用户设置“Read”、“Write”和“Excute”权限。 “Sticky”表示禁止HDFS的管理员、目录属主或文件属主以外的用户在目录中移动文件。 “Recursive”表示递归设置权限到子目录。 “Storage policies”：表示设置目录或文件在HDFS中的存储策略。 “Summary”：表示查看选中的文件或目录的HDFS存储信息。

MapReduce服务 MRS 使用Hue（MRS 3.x之前版本）
MapReduce服务 MRS-在System.disks表中查询到磁盘status是fault或者abnormal:回答

回答这种情况是由于磁盘存在IO错误，处理方法如下：方法一：登录FusionInsight Manager页面，检查Manager界面上是否磁盘IO异常的告警，如果有，可参考对应的告警帮助文档，通过更换硬盘恢复。方法二：登录FusionInsight Manager页面，重启ClickHouse实例，恢复磁盘状态。此时磁盘未更换，有IO错误发生时，磁盘状态还会被置为fault或者abnormal。

MapReduce服务 MRS
MapReduce服务 MRS-删除CarbonData表:操作步骤

操作步骤运行如下命令删除表。 DROP TABLE [IF EXISTS] [db_name.]table_name; “db_name”为可选参数。如果没有指定“db_name”，那么将会删除当前数据库下名为“table_name”的表。例如执行命令，删除数据库“productdb”下的表“productSalesTable”： DROP TABLE productdb.productSalesTable; 执行以下命令查询表是否被删除： SHOW TABLES;

MapReduce服务 MRS 使用CarbonData（MRS 3.x之前版本）
MapReduce服务 MRS-Spark SQL无法查询到ORC类型的Hive表的新插入数据:回答

回答由于Spark存在一个机制，为了提高性能会缓存ORC的元数据信息。当通过Hive或其他方式更新了ORC表时，缓存的元数据信息未更新，导致Spark SQL查询不到新插入的数据。对于存储类型为ORC的Hive分区表，在执行插入数据操作后，如果分区信息未改变，则缓存的元数据信息未更新，导致Spark SQL查询不到新插入的数据。解决措施：在使用Spark SQL查询之前，需执行Refresh操作更新元数据信息： REFRESH TABLE table_name; table_name为刷新的表名，该表必须存在，否则会出错。执行查询语句时，即可获取到最新插入的数据。使用sqark时，执行以下命令禁用Spark优化： set spark.sql.hive.convertMetastoreOrc=false;

MapReduce服务 MRS
MapReduce服务 MRS-Hudi写入小精度Decimal数据失败:回答

回答原因： Hudi表数据含有Decimal类型数据。初始入库BULK_INSET方式会使用Spark内部parquet文件的写入类进行写入，Spark对不同精度的Decimal类型处理是不同的。 UPSERT操作时，Hudi使用Avro兼容的parquet文件写入类进行写入，这个和Spark的写入方式是不兼容的。解决方案：执行BULK_INSERT时指定设置“hoodie.datasource.write.row.writer.enable = false”，使hoodie采用Avro兼容的parquet文件写入类进行写入。

MapReduce服务 MRS
MapReduce服务 MRS-如何关闭Hive客户端日志:回答

回答使用root用户登录安装客户端的节点。执行以下命令，切换到客户端安装目录，例如“/opt/client”。 cd /opt/client 执行以下命令配置环境变量。 source bigdata_env 根据集群认证模式，完成Hive客户端登录。安全模式，则执行以下命令，完成用户认证并登录Hive客户端。 kinit 组件业务用户 beeline 普通模式，则执行以下命令，登录Hive客户端。使用指定组件业务用户登录Hive客户端。 beeline -n 组件业务用户不指定组件业务用户登录Hive客户端，则会以当前操作系统用户登录。 beeline 执行以下命令关闭客户端日志： set hive.server2.logging.operation.enabled=false; 执行以下命令查看客户端日志是否已关闭，如下图所示即为关闭成功。 set hive.server2.logging.operation.enabled;

MapReduce服务 MRS
MapReduce服务 MRS-Sqoop1.4.7适配MRS 3.x集群:Sqoop1.4.7适配步骤

Sqoop1.4.7适配步骤下载开源sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz包（下载地址http://archive.apache.org/dist/sqoop/1.4.7/）。将下载好的sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz包放入已安装MRS客户端的节点的“/opt/Bigdata/client”目录并解压。 tar zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz 从MySQL官网下载MySQL jdbc驱动程序“mysql-connector-java-xxx.jar”，具体MySQL jdbc驱动程序选择参见下表。表1 版本信息 jdbc驱动程序版本 MySQL版本 Connector/J 5.1 MySQL 4.1、MySQL 5.0、MySQL 5.1、MySQL 6.0 alpha Connector/J 5.0 MySQL 4.1、MySQL 5.0 servers、distributed transaction (XA) Connector/J 3.1 MySQL 4.1、MySQL 5.0 servers、MySQL 5.0 except distributed transaction (XA) Connector/J 3.0 MySQL 3.x、MySQL 4.1 将MySQL 驱动包放入Sqoop的lib目录下（/opt/Bigdata/client/sqoop-1.4.7.bin__hadoop-2.6.0/lib）并修改jar包的属组和权限，参考图1的omm:wheel 和755的属组和权限。图1 MySQL 驱动包的属组和权限使用MRS客户端中Hive的lib目录下（/opt/Bigdata/client/Hive/Beeline/lib）的jackson开头的jar包替换Sqoop的lib下的相应jar包。图2 jackson开头的jar 将MRS Hive客户端中（/opt/Bigdata/client/Hive/Beeline/lib）的jline的包，拷贝到Sqoop的lib下。执行vim $JAVA_HOME/jre/lib/security/java.policy增加如下配置： permission javax.management.MBeanTrustPermission "register"; 执行如下命令，进入Sqoop的conf目录并增加配置： cd /opt/Bigdata/client/sqoop-1.4.7.bin__hadoop-2.6.0/conf cp sqoop-env-template.sh sqoop-env.sh 执行vim sqoop-env.sh 设置Sqoop的环境变量，Hadoop、Hive的目录根据实际目录修改。 export HADOOP_COMMON_HOME=/opt/Bigdata/client/HDFS/hadoopexport HADOOP_MAPRED_HOME=/opt/Bigdata/client/HDFS/hadoopexport HIVE_HOME=/opt/Bigdata/MRS_1.9.X/install/FusionInsight-Hive-3.1.0/hive(请按照实际路径填写)export HIVE_CONF_DIR=/opt/Bigdata/client/Hive/configexport HCAT_HOME=/opt/Bigdata/client/Hive/HCatalog 图3 设置Sqoop的环境变量编写Sqoop脚本例如： /opt/Bigdata/FusionInsight_Current/1_19_SqoopClient/install/FusionInsight-Sqoop-1.4.7/bin/sqoop import --connect jdbc:mysql://192.168.0.183:3306/test --driver com.mysql.jdbc.Driver --username 'root' --password 'xxx' --query "SELECT id, name FROM tbtest WHERE \$CONDITIONS" --hcatalog-database default --hcatalog-table test --num-mappers 1

MapReduce服务 MRS
MapReduce服务 MRS-使用hcatalog方式同步数据，报错getHiveClient方法不存在:回答

回答将https://repo.huaweicloud.com/repository/maven/huaweicloudsdk/org/apache/hive/hcatalog/hive-hcatalog-core/源下的jar包替换到mrs客户端的hcatalog的目录下，并重命名之前的同名hcatalog的jar包。如图302002就是替换后的包，310001-SNAPSHOT.jar.bak就是加了.bak后缀的原包。图1 hcatalog目录图2 替Jar包

MapReduce服务 MRS Sqoop常见问题
MapReduce服务 MRS-DROP删除表:使用示例

使用示例 --删除表t1drop table t1 SYNC; 在删除复制表时，因为复制表需要在Zookeeper上建立一个路径，存放相关数据。ClickHouse默认的库引擎是原子数据库引擎，删除Atomic数据库中的表后，它不会立即删除，而是会在480秒后删除。在删除表时，加上SYNC字段，即可解决该问题，例如：drop table t1 SYNC; 删除本地表和分布式表，则不会出现该问题，可不带SYNC字段，例如：drop table t1;

MapReduce服务 MRS
MapReduce服务 MRS-开启Oozie HA机制:前提条件

前提条件已安装Oozie、ZooKeeper服务，且服务正常运行。没有任务正在运行。如果当前集群不是安装最新的版本包，需要从“$BIGDATA_HOME/FusionInsight_Porter_x.x.x/install/FusionInsight-Oozie-x.x.x/oozie-x.x.x/embedded-oozie-server/webapp/WEB-INF/lib”路径拷贝“curator-x-discovery-x.x.x.jar”包到“$BIGDATA_HOME/FusionInsight_Porter_x.x.x/install/FusionInsight-Oozie-x.x.x/oozie-x.x.x/lib”目录下。

MapReduce服务 MRS
MapReduce服务 MRS-DESC查询表结构:使用示例

使用示例 --查询表t1的表结构desc t1;┌─name────┬─type─┬─default_type─┬─default_expression ┬─comment─┬─codec_expression─┬─ttl_expression─┐│ id │ UInt8 │ │ │ │ │ │ │ name │ UInt8 │ │ │ │ │ │ │ address │ String │ │ │ │ │ │└───────┴────┴────────┴────────── ┴───── ┴──────────┴─────────┘

MapReduce服务 MRS
MapReduce服务 MRS-SELECT查询表数据:使用示例

使用示例 --查看ClickHouse集群信息select * from system.clusters;--显示当前节点设置的宏select * from system.macros;--查看数据库容量selectsum(rows) as "总行数",formatReadableSize(sum(data_uncompressed_bytes)) as "原始大小",formatReadableSize(sum(data_compressed_bytes)) as "压缩大小",round(sum(data_compressed_bytes) / sum(data_uncompressed_bytes) * 100,0) "压缩率"from system.parts;--查询test表容量。where条件根据实际情况添加修改selectsum(rows) as "总行数",formatReadableSize(sum(data_uncompressed_bytes)) as "原始大小",formatReadableSize(sum(data_compressed_bytes)) as "压缩大小",round(sum(data_compressed_bytes) / sum(data_uncompressed_bytes) * 100,0) "压缩率"from system.partswhere table in ('test')and partition like '2020-11-%'group by table;

MapReduce服务 MRS
MapReduce服务 MRS-ALTER TABLE修改表结构:使用示例

使用示例 --给表t1增加列test01 ALTER TABLE t1 ADD COLUMN test01 String DEFAULT 'defaultvalue';--查询修改后的表t1desc t1┌─name────┬─type─┬─default_type─┬─default_expression ┬─comment─┬─codec_expression─┬─ttl_expression─┐│ id │ UInt8 │ │ │ │ │ │ │ name │ String │ │ │ │ │ │ │ address │ String │ │ │ │ │ ││ test01 │ String │ DEFAULT │ 'defaultvalue' │ │ │ │└───────┴────┴────────┴────────── ┴───── ┴──────────┴─────────┘--修改表t1列name类型为UInt8ALTER TABLE t1 MODIFY COLUMN name UInt8;--查询修改后的表t1desc t1┌─name────┬─type─┬─default_type─┬─default_expression ┬─comment─┬─codec_expression─┬─ttl_expression─┐│ id │ UInt8 │ │ │ │ │ │ │ name │ UInt8 │ │ │ │ │ │ │ address │ String │ │ │ │ │ ││ test01 │ String │ DEFAULT │ 'defaultvalue' │ │ │ │└───────┴────┴────────┴────────── ┴───── ┴──────────┴─────────┘--删除表t1的列test01ALTER TABLE t1 DROP COLUMN test01;--查询修改后的表t1desc t1┌─name────┬─type─┬─default_type─┬─default_expression ┬─comment─┬─codec_expression─┬─ttl_expression─┐│ id │ UInt8 │ │ │ │ │ │ │ name │ UInt8 │ │ │ │ │ │ │ address │ String │ │ │ │ │ │└───────┴────┴────────┴────────── ┴───── ┴──────────┴─────────┘

MapReduce服务 MRS
MapReduce服务 MRS-CREATE DATABASE创建数据库:基本语法

基本语法 CREATE DATABASE [IF NOT EXISTS] database_name [ON CLUSTER ClickHouse集群名] ON CLUSTER ClickHouse集群名的语法，使得该DDL语句执行一次即可在集群中所有实例上都执行。集群名信息可以使用以下语句的cluster字段获取： select cluster,shard_num,replica_num,host_name from system.clusters;

MapReduce服务 MRS
MapReduce服务 MRS-典型场景：从HDFS导入数据到ClickHouse:前提条件

前提条件创建或获取该任务中创建Loader作业的业务用户和密码。确保用户已授权访问作业执行时操作的HDFS目录和数据。 ClickHouse相关表已创建，并确保用户已授权访问作业执行时操作该表的权限。检查磁盘空间，确保没有出现告警且余量满足导入、导出数据的大小。使用Loader从HDFS导入数据时，确保HDFS输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;,中的任意字符。如果设置的作业需要使用指定YARN队列功能，该用户需要已授权有相关YARN队列的权限。设置任务的用户需要获取该任务的执行权限，并获取该任务对应的连接的使用权限。

MapReduce服务 MRS

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

华为云用户手册

7*24

备案

专业服务

退订

建议反馈

售前咨询热线