检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
其中“X”为随机生成的数字,请根据实际情况修改。同时文件需要以Flume客户端安装用户身份保存,例如root用户。 登录安装Flume客户端节点,切换到客户端安装目录,执行以下命令修改文件: vi conf/jaas.conf 修改参数“keyTab”定义的用户认证文件完整路径即4中保存用户认证文件的目录:“Flu
Spark SQL对用户SQL语句的执行逻辑是:首先解析出语句中包含的表,再获取表的元数据信息,然后对权限进行检查。 当表是parquet表时,元数据信息包括文件的Split信息。Split信息需要调用HDFS的接口去读取,当表包含的文件数量很多时,串行读取Split信息变得缓慢,
ars”文件夹中。${install_home}是用户的客户端安装路径,用户需要填写实际的安装目录;若本地的安装目录为“/opt/hadoopclient”,那么就复制相应版本xx.jar到“/opt/hadoopclient/Spark2x/spark/jars”文件夹里。 父主题:
k/jars文件夹中。${install_home}是用户的客户端安装路径,用户需要填写实际的安装目录;若本地的安装目录为/opt/hadoopclient,那么就复制相应版本xx.jar到/opt/hadoopclient/Spark2x/spark/jars文件夹里。 父主题:
s/distcp/ 该目录下需关注文件如表1所示。 表1 文件说明 文件名称 描述 job.properties 工作流的参数变量定义文件。 workflow.xml 工作流的规则定制文件。 执行以下命令,编辑“job.properties”文件。 vi job.properties
所在节点的hosts文件中设置主机名和IP地址映射。主机名和IP地址请保持一一对应。 操作步骤 将从IntelliJ IDEA中导出的jar包复制到Linux客户端指定目录(例如“/opt/jarsource”)。 若业务需要访问外部组件,其所依赖的配置文件请参考相关开发指引,获
*/plugins.d/thirdPlugin/libext”文件夹中,“Flume客户端安装目录/fusionInsight-flume-*/plugins.d/thirdPlugin/native”放置本地库文件。 配置“Flume客户端安装目录/fusionInsight-
<filepath> <filepath>* add ARCHIVE[S] <filepath> <filepath>* 将一个或多个文件、JAR文件或ARCHIVE文件添加至分布式缓存的资源列表中。 add FILE[S] <ivyurl> <ivyurl>* add JAR[S] <ivyurl>
用于控制生成的文件大小,以目标字节数为准。 write.delete.target-file-size-bytes 67108864(64MB) 用于控制生成的删除文件大小,以目标字节数为准。 write.data.path table location + /data 数据文件的基本位置。
适当调大堆内存(xmx)的值。 与正常启动Flume的节点进行文件和文件夹权限对比,更改错误文件或文件夹权限。 重新配置JAVA_HOME。 客户端替换“${install_home}/fusioninsight-flume-flume组件版本号/conf/ENV_VARS文件中JAVA_HOME”的值,服务
在应用开发环境中,导入样例工程到IDEA开发环境。 在IDEA中选择“File > Open”,弹出“浏览文件夹”对话框。 选择样例工程文件夹,单击“OK”。 修改样例工程中的如下参数,请参考表1。 表1 文件参数修改列表 文件名 参数名 值 取值样例 \src\main\resources\job.properties
参数 描述 folder_path 原始CSV数据文件夹或者文件的路径。 db_name Database名称。如果未指定,则使用当前database。 table_name 所提供的database中的表的名称。 注意事项 以下是可以在加载数据时使用的配置选项: DELIMITE
y对应的数据。 运行前置操作 安全模式下Spark Core样例代码需要读取两个文件(user.keytab、krb5.conf)。user.keytab和krb5.conf文件为安全模式下的认证文件,需要在FusionInsight Manager中下载principal用户的
*命令,查看该目录下各文件夹的大小。查看是否存在除“kafka-logs”目录外的其他文件,并判断是否可以删除或者迁移。 是,删除或者迁移相关数据,然后执行8。 否,执行4。 进入“kafka-logs”目录,执行du -sh *命令,选择一个待移动的Partition文件夹,其名称命名
指定参数值为“sftp”表示SFTP连接器。 在导入作业中,支持修改源文件的输入路径“-inputPath”、源文件的编码格式“-encodeType”和源文件导入成功后对输入文件增加的后缀值“-suffixName”。 在导出作业中,支持修改导出文件的路径或者文件名“-outputPath”。 指定参数值为“rdb”表示关系型数据库连接器。
ars”文件夹中。${install_home}是用户的客户端安装路径,用户需要填写实际的安装目录;若本地的安装目录为“/opt/hadoopclient”,那么就复制相应版本xx.jar到“/opt/hadoopclient/Spark2x/spark/jars”文件夹里。 父主题:
k/jars文件夹中。${install_home}是用户的客户端安装路径,用户需要填写实际的安装目录;若本地的安装目录为/opt/hadoopclient,那么就复制相应版本xx.jar到/opt/hadoopclient/Spark2x/spark/jars文件夹里。 父主题:
看”,打开此次任务执行的备份路径信息,查找以下信息: “备份对象”表示备份的数据源。 “备份路径”表示备份文件保存的完整路径。 选择正确的项目,在“备份路径”手工选中备份文件的完整路径并复制。 在FusionInsight Manager,选择“运维 > 备份恢复 > 恢复管理”。
选择不同的备份目录时,对应设置如下: “LocalDir”:表示备份文件保存在主管理节点的本地磁盘上。 选择此参数值,还需要配置“源端路径”,表示要恢复的备份文件。例如,“版本号_数据源_任务执行时间.tar.gz”。 “LocalHDFS”:表示备份文件保存在当前集群的HDFS目录。 选择此参数值,还需要配置以下参数:
使用Ranger时适配第三方JDK 使用Spark小文件合并工具说明 使用Spark小文件合并工具说明 配置流式读取Spark Driver执行结果 配置Spark Executor退出时执行自定义代码 配置Spark动态脱敏 distinct聚合优化 配置Spark作业失败时清理残留文件 配置Spark加载第