检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
条件逻辑为“OR”,如果未添加过滤条件,全部数据成为脏数据;或者原始数据满足任意添加的过滤条件,当前行成为脏数据。 样例 通过“CSV文件输入”算子,生成两个字段A和B。 源文件如下: 配置“过滤行转换”算子,过滤掉含有test的行。 转换后,输入原字段,结果如下: 父主题: 转换算子
rConverter 回答 因为schema演进以非向后兼容的方式进行,此错误将再次发生。基本上,如果已经写入Hudi数据集parquet文件的记录R有一些更新U。R包含字段F,该字段包含某类数据类型,也就是LONG。U具有相同的字段F,该字段的数据类型是INT。Parquet FS不支持这种不兼容的数据类型转换。
已安装客户端。例如安装目录为“/opt/hadoopclient”。 各组件业务用户由MRS集群管理员根据业务需要创建。安全模式下,“机机”用户需要下载keytab文件。“人机”用户第一次登录时需修改密码。(普通模式不涉及) 操作步骤 根据业务情况,准备好客户端,登录安装客户端的节点。 请根据客户端所在位
在Windows环境调测程序步骤请参考在Windows中调测程序。 在Linux环境调测程序 编译并生成Jar包,并将Jar包复制到与依赖库文件夹同级的目录“src/main/resources”下,具体步骤请参考在Linux调测程序。 使用集群安装用户登录集群客户端节点。 cd /opt/client
n的“settings.xml”文件路径。 打包成功之后,在工程根目录的target子目录下获取打好的jar包。 将导出的Jar包上传至Linux运行环境的任意目录下,例如“/opt/client”。 将工程中的“lib”文件夹和“conf”文件夹上传至和Jar包相同的Linux
ift-example”为ThriftServer实例服务的调用实现。 前提条件 已获取样例工程运行所需的配置文件及认证文件,详细操作请参见准备连接HBase集群配置文件。 配置样例代码 代码认证 以下代码在“hbase-thrift-example”样例工程的“com.huawei
将样例工程中的“hbase-python-example”文件夹上传到集群Master节点的“/opt/hbase-examples”下,并上传从准备HBase应用开发用户中获取的认证文件至该目录下。 在“/opt/hbase-examples”新建hbasepython.properties文件,并修改配置内容如下。
} [1]userdir获取的是编译后资源目录的路径。将初始化需要的配置文件“core-site.xml”、“hdfs-site.xml”、“hbase-site.xml”和用于安全认证的用户凭证文件放置到“src/main/resources”的目录下。 “login”方法中的参数“java
启。 本章节操作适用于MRS 3.x及之后版本。 配置描述 在客户端的“mapred-site.xml”配置文件中进行如下配置。“mapred-site.xml”配置文件在客户端安装路径的config目录下,例如“/opt/client/Yarn/config”。 表1 参数说明
确认本应用所运行设备和集群网络上是否通畅,Kerberos认证所需的各类端口(TCP/UDP)是否可正常访问。 确认各个配置文件是否被正确读取到,路径是否保存正确。 确认用户名和keytab文件是按操作指导得到的。 确认各类配置信息是否已经先设置好了,再发起认证。 确认没有在同一个进程中发起多次认证,即重复调用login()方法。
参考获取MRS应用开发样例工程,获取样例代码解压目录中“src\hive-examples”目录下的样例工程文件夹“python-examples”。 进入“python-examples”文件夹。 在命令行终端执行以下命令 python setup.py install 输出以下关键内容表示安装Python客户端成功:
Agent的安装目录。 cd Flume Agent的安装目录 执行ls -al * -R命令,检查是否所有文件的所有者均是运行Flume Agent的用户。 是,执行3。 否,使用chown命令修改文件属主为运行Flume Agent的用户,执行2.d 查看告警列表中,该告警是否已清除。 是,处理完毕。
请参见配置Container日志聚合功能。 然而,开启container日志聚合功能之后,其日志聚合至HDFS目录中,只能通过获取HDFS文件来查看日志。开源Spark和Yarn服务不支持通过WebUI查看聚合后的日志。 因此,Spark在此基础上进行了功能增强。如图1所示,在H
Server会回收最先缓存的Spark应用,同时会清理掉相应的“temp_shuffle”文件。 当用户正在查看即将被回收的Spark应用时,可能会出现找不到“temp_shuffle”文件的错误,从而导致当前页面无法访问。 如果遇到上述问题,可参考以下两种方法解决。 重新访问这
如何获取Spark Jar包? 华为提供开源镜像站(网址为https://mirrors.huaweicloud.com/),各服务样例工程依赖的jar包都可在华为开源镜像站下载,剩余所依赖的开源jar包请直接从Maven中央库或者其他用户自定义的仓库地址下载。 本地环境使用开发
n的“settings.xml”文件路径。 打包成功之后,在工程根目录的target子目录下获取打好的jar包。 将导出的Jar包上传至Linux运行环境的任意目录下,例如“/opt/client”。 将工程中的“lib”文件夹和“conf”文件夹上传至和Jar包相同的Linux
分析Hive组件的“jdbc-examples”样例工程,不存在类似问题,是因为该工程的classpath路径下,存在core-site.xml配置文件,此配置文件上设置“hadoop.security.authentication”为“kerberos”。 解决办法 属于用户使用不当。对于本业
清理Loader作业残留历史数据 本章节适用于MRS 3.2.0及之后版本。 操作场景 在业务不断运行中,Loader会积累大量的历史数据,这些历史数据可能会对作业提交、作业运行、作业状态获取等产生影响,严重时可能导致页面访问卡顿,作业运行失败等,所以需要根据具体Loader业务数据量,合理配置历史数据清理机制。
luster模式下稍有不同。 yarn-client模式下 在除--jars参数外,在客户端“spark-defaults.conf”配置文件中,将“spark.driver.extraClassPath”参数值中添加客户端依赖包路径,如“$SPARK_HOME/lib/streamingClient/*”。
在连接的TSD实例上绑定EIP,并把该EIP及该TSD实例的主机名配置到hosts中,linux环境需修改文件位置为“/etc/hosts”,Windows环境需修改的文件位置为“C:\Windows\System32\drivers\etc\hosts”。 例如,访问的TSD实