数据分析-华为云

数据仓库服务 GAUSSDB(DWS)-交通卡口通行车辆分析:步骤四：车辆分析

步骤四：车辆分析执行ANALYZE。用于收集与数据库中普通表内容相关的统计信息，统计结果存储在系统表PG_STATISTIC中。执行计划生成器会使用这些统计数据，以生成最有效的查询执行计划。执行以下语句生成表统计信息： 1 ANALYZE; 查询数据表中的数据量。执行如下语句，可以查看已加载的数据条数。 1 2 SET current_schema= traffic_data; SELECT count(*) FROM traffic_data.gcjl; 车辆精确查询。执行以下语句，指定车牌号码和时间段查询车辆行驶路线。 GaussDB (DWS)在应对点查时秒级响应。 1 2 3 4 5 6 SET current_schema= traffic_data; SELECT hphm, kkbh, gcsj FROM traffic_data.gcjl where hphm = 'YD38641' and gcsj between '2016-01-06' and '2016-01-07' order by gcsj desc; 车辆模糊查询。执行以下语句，指定车牌号码和时间段查询车辆行驶路线，GaussDB(DWS) 在应对模糊查询时秒级响应。 1 2 3 4 5 6 7 SET current_schema= traffic_data; SELECT hphm, kkbh, gcsj FROM traffic_data.gcjl where hphm like 'YA23F%' and kkbh in('508', '1125', '2120') and gcsj between '2016-01-01' and '2016-01-07' order by hphm,gcsj desc;

数据仓库服务 GAUSSDB(DWS) 模拟数据分析

数据仓库服务 GAUSSDB(DWS)-交通卡口通行车辆分析:支持区域

支持区域当前已上传OBS数据的区域如表1所示。表1 区域和OBS桶名区域 OBS桶名华北-北京一 dws-demo-cn-north-1 华北-北京二 dws-demo-cn-north-2 华北-北京四 dws-demo-cn-north-4 华北-乌兰察布一 dws-demo-cn-north-9 华东-上海一 dws-demo-cn-east-3 华东-上海二 dws-demo-cn-east-2 华南-广州 dws-demo-cn-south-1 华南-广州友好 dws-demo-cn-south-4 中国-香港 dws-demo-ap-southeast-1 亚太-新加坡 dws-demo-ap-southeast-3 亚太-曼谷 dws-demo-ap-southeast-2 拉美-圣地亚哥 dws-demo-la-south-2 非洲-约翰内斯堡 dws-demo-af-south-1 拉美-墨西哥城一 dws-demo-na-mexico-1 拉美-墨西哥城二 dws-demo-la-north-2 莫斯科二 dws-demo-ru-northwest-2 拉美-圣保罗一 dws-demo-sa-brazil-1

数据仓库服务 GAUSSDB(DWS) 模拟数据分析

内容分发网络 CDN-订阅报表:功能介绍

功能介绍运营报表为您提供了访问区域分布、国家分布、运营商分布、域名排行 (按流量排序)、热门URL (按流量排序)、热门URL (按请求数排序)共6个运营报表，您可以根据业务需要订阅相关报表，报表生成后会发送到您指定的邮箱。表1 报表内容报表名称说明访问区域分布统计某个域名在某段时间内中国大陆终端访问者的地域的分布。说明：只有域名的服务范围包含中国大陆时才有数据。国家分布统计某个域名在某段时间内终端访问者的国家分布。运营商分布统计某个域名在某段时间内终端访问者使用的运营商分布。域名排行 (按流量排序) 按加速域名在CDN节点产生的流量统计域名排行。热门URL (按流量排序) 按流量统计热门URL。热门URL (按请求数排序) 按请求次数统计热门URL。

内容分发网络 CDN 数据分析

AI开发平台MODELARTS-数据处理

数据处理当数据采集和接入之后，数据一般是不能直接满足训练要求的。为了保障数据质量，以免对后续操作（如数据标注、模型训练等）带来负面影响，开发过程通常需要进行数据处理。ModelArts提供了数据处理的功能，目的是帮助用户从大量的、杂乱无章的、难以理解的数据中抽取或者生成对某些特定的人们来说是有价值、有意义的数据。 ModelArts提供了四种基本的数据处理功能：数据校验：帮助AI开发者提前识别数据中的不合法数据，如已损坏数据、不合格数据等，有效防止数据噪声造成的算法精度下降或者训练失败问题。数据清洗：在数据校验的基础上，对数据进行一致性检查，处理一些无效值。数据选择：在AI开发过程中，采集的数据可能存在大量重复数据，重复数据对模型精度提升并没有太大作用，反而需要花费很多时间对其进行标注。使用数据选择进行数据预处理，对采集到的数据去重，根据相似度删除一些重复度比较高的数据。数据增强：数据增强的目的是帮助用户增加数据量。父主题：数据分析与预览

AI开发平台MODELARTS 数据分析与预览

MAPREDUCE服务 MRS-导出Doris查询结果集:示例

示例导出到HDFS 将简单查询结果导出到文件“hdfs://path/to/result.txt”中，并指定导出格式为 CS V。集群已启用Kerberos认证（安全模式） SELECT * FROM example_db.test_export_tbl INTO OUTFILE "hdfs://192.168.67.78:25000/tmp/result_" FORMAT AS CSV PROPERTIES ( "broker.name" = "broker_192_168_67_78", "column_separator" = ",", "line_delimiter" = "\n", "max_file_size" = "100MB", "broker.hadoop.security.authentication" = "kerberos", "broker.kerberos_principal" = "doris/hadoop.hadoop.com@HADOOP.COM", "broker.kerberos_keytab" = "${BIGDATA_HOME}/ FusionInsight _Doris_8.3.0/install/FusionInsight-Doris-1.2.3/doris-fe/bin/doris.keytab" ); 集群未启用Kerberos认证（普通模式） SELECT * FROM example_db.test_export_tbl INTO OUTFILE "hdfs://192.168.67.78:25000/tmp/result_" FORMAT AS CSV PROPERTIES ( "broker.name" = "broker_192_168_67_78", "column_separator" = ",", "line_delimiter" = "\n", "max_file_size" = "100MB", "broker.username"="hdfs", "broker.password"="" ); 导出到本地文件导出到本地文件时需要先在“fe.conf”中配置enable_outfile_to_local=true。 select * from tbl1 limit 10 INTO OUTFILE "file:///home/work/path/result_";

MAPREDUCE服务 MRS Doris数据分析

MAPREDUCE服务 MRS-基于Kafka的Word Count数据流统计案例:应用场景

应用场景 Kafka是一个分布式的消息发布-订阅系统。它采用独特的设计提供了类似JMS的特性，主要用于处理活跃的流式数据。 Kafka有很多适用的场景：消息队列、行为跟踪、运维数据监控、日志收集、流处理、事件溯源、持久化日志等。 Kafka有如下几个特点：高吞吐量消息持久化到磁盘分布式系统易扩展容错性好 MRS 服务提供了Kafka多种场景下的样例开发工程，本章节以最常见的WordCount样例Demo进行说明，对应示例场景的开发思路：使用Kafka客户端创建两个Topic，用于输入Topic和输出Topic。开发一个Kafka Streams完成单词统计功能，通过读取输入Topic中的消息，统计每条消息中的单词个数，从输出Topic消费数据，将统计结果以Key-Value的形式输出。

MAPREDUCE服务 MRS 数据分析

MAPREDUCE服务 MRS-基于Kafka的Word Count数据流统计案例:步骤1：创建MRS集群

步骤1：创建MRS集群创建并购买一个包含有Kafka组件的MRS集群，详情请参见购买自定义集群。本文以购买的MRS 3.1.0版本的集群为例，组件包含Hadoop、Kafka组件，集群未开启Kerberos认证。集群购买成功后，在MRS集群的任一节点内，安装集群客户端，具体操作可参考安装并使用集群客户端。例如客户端安装在主管理节点中，安装目录为“/opt/client”。客户端安装完成后，在客户端内创建“lib”目录，用于放置相关jar包。将安装客户端过程中解压的目录中Kafka相关jar包复制到“lib”目录。例如客户端软件包的下载路径为主管理节点的“/tmp/FusionInsight-Client”目录，执行以下命令： mkdir /opt/client/lib cd /tmp/FusionInsight-Client/FusionInsight_Cluster_1_Services_ClientConfig scp Kafka/install_files/kafka/libs/* /opt/client/lib

MAPREDUCE服务 MRS 数据分析

MAPREDUCE服务 MRS-基于Kafka的Word Count数据流统计案例:方案架构

方案架构生产者（Producer）将消息发布到Kafka主题（Topic）上，消费者（Consumer）订阅这些主题并消费这些消息。在Kafka集群上一个服务器称为一个Broker。对于每一个主题，Kafka集群保留一个用于缩放、并行化和容错性的分区（Partition）。每个分区是一个有序、不可变的消息序列，并不断追加到提交日志文件。分区的消息每个也被赋值一个称为偏移顺序（Offset）的序列化编号。图1 Kafka结构

MAPREDUCE服务 MRS 数据分析

ISDP-任务跳转ID查询（API名称：queryJumpIssueCode）:响应示例

响应示例 { "stateCode": "0", "errorMessage": "success", "result": { "pos": 0, "totalCount": 1, "data": [ { "issueCodeList": "ISSUE123456,ISSUE123457,ISSUE123458" } ] } }

ISDP 数据分析

ISDP-任务跳转ID查询（API名称：queryJumpIssueCode）:请求示例

请求示例 { "date": "2022-06-11", "dateType": "day", "issueType": "typeA", "issueLevel": "一般", "querType": 0, "orgIdList": ["123", "124"], "pageStart": 0, "pageSize": 15 }

ISDP 数据分析

视频点播 VOD-分发统计:流量命中率

流量命中率选择需要查看的时间、域名及时间粒度，即可查看到指定时间跨度内的流量命中率统计详情。如图5所示。流量命中率=命中缓存产生的流量/请求总流量，请求总流量为命中缓存产生的流量和请求回源产生的流量之和。您可以单击“下载”，将统计详情导出到本地。统计表中呈现的是所选域名在查询时间段内的流量命中率统计信息，将鼠标指针停留在趋势图上，滚动鼠标滚轮可针对某时间跨度范围内的趋势图时间横轴进行拉大或缩小整体占比。图5 流量命中率统计信息

视频点播 VOD 数据分析

华为云FLEXUS云服务-初始化Matomo

初始化Matomo 首次登录应用镜像管理页面需要初始化，后续在“镜像信息”区域中，单击“管理”可直接登录管理页面。在服务器“概览”页“镜像信息”中，单击“管理”登录管理页面。单击“下一步”。 Matomo进行系统检查，单击“下一步”。 Matomo自动检查云服务器是否满足Matomo的安装条件，在每一项后显示检查结果。设置MySQL数据库，单击“下一步”。 Matomo已经预置了MySQL，并已经配置一个默认的数据库帐号，初始化界面会自动获取此默认的数据库帐号信息，请勿改动界面信息，直接进行下一步。 Matomo自动创建数据表，单击“下一步”。在“超级用户”页面，设置Matomo管理员用户名、密码和电子邮件，单击“下一步”。超级用户是您在安装 Matomo 时创建的用户。每个Matomo只有一个超级用户，该用户拥有最高权限。请妥善保管此超级用户的用户名及密码。在“设置网站”页面，添加第一个您想用Matomo追踪、分析的网站名称和URL。单击“下一步”。安装Matomo后，您可以添加更多网站。了解JavaScript跟踪代码，单击“下一步”。要用Matomo追踪您网站的流量，您需要确认在您网站的每个页面都增加了一些额外的代码，即JavaScript跟踪代码。Matomo会自动生成一个JavaScript跟踪代码，安装结束后，您可以在管理页面“追踪代码”选项下查看跟踪代码。完成初始化向导，单击“继续使用MATOMO”进入登录页面。输入超级用户的用户名密码，单击“登录”，进入Matomo管理页面。至此，您已获得一台完备的Matomo应用Flexus应用服务器 L实例。您可以开始使用Matomo，也可以按照使用Matomo监控网站中的步骤监控网站。父主题：使用Matomo应用镜像进行网站数据分析

华为云FLEXUS云服务使用Matomo应用镜像进行网站数据分析

MAPREDUCE服务 MRS-新建CarbonData表:使用自定义列创建表

使用自定义列创建表可通过指定各列及其数据类型来创建表。命令示例： CREATE TABLE IF NOT EXISTS productdb.productSalesTable ( productNumber Int, productName String, storeCity String, storeProvince String, productCategory String, productBatch String, saleQuantity Int, revenue Int) STORED AS carbondata TBLPROPERTIES ( 'table_blocksize'='128'); 上述命令所创建的表的详细信息如下：表1 表信息定义参数描述 productSalesTable 待创建的表的名称。该表用于加载数据进行分析。表名由字母、数字、下划线组成。 productdb 数据库名称。该数据库将与其中的表保持逻辑连接以便于识别和管理。数据库名称由字母、数字、下划线组成。 productName storeCity storeProvince procuctCategory productBatch saleQuantity revenue 表中的列，代表执行分析所需的业务实体。列名（字段名）由字母、数字、下划线组成。 table_blocksize CarbonData表使用的数据文件的block大小，默认值为1024，最小值为1，最大值为2048，单位为MB。如果“table_blocksize”值太小，数据加载时，生成过多的小数据文件，可能会影响HDFS的使用性能。如果“table_blocksize”值太大，数据查询时，索引匹配的block数据量较大，某些block会包含较多的blocklet，导致读取并发度不高，从而降低查询性能。一般情况下，建议根据数据量级别来选择大小。例如：GB级别用256，TB级别用512，PB级别用1024。所有Integer类型度量均以BigInt类型进行处理与显示。 CarbonData遵循严格解析，因此任何不可解析的数据都会被保存为null。例如，在BigInt列中加载double值（3.14），将会保存为null。在Create Table中使用的Short和Long数据类型在DESCRIBE命令中分别显示为Smallint和Bigint。可以使用DESCRIBE格式化命令查看表数据大小和表索引大小。

MAPREDUCE服务 MRS CarbonData数据分析

MAPREDUCE服务 MRS-合并CarbonData表Segments:操作场景

操作场景频繁的数据获取导致在存储目录中产生许多零碎的CarbonData文件。由于数据排序只在每次加载时进行，所以，索引也只在每次加载时执行。这意味着，对于每次加载都会产生一个索引，随着数据加载数量的增加，索引的数量也随之增加。由于每个索引只在一次加载时工作，索引的性能被降低。CarbonData提供加载压缩。压缩过程通过合并排序各segment中的数据，将多个segment合并为一个大的segment。

MAPREDUCE服务 MRS CarbonData数据分析

MAPREDUCE服务 MRS-合并CarbonData表Segments:操作描述

操作描述有Minor合并、Major合并和Custom合并三种类型。 Minor合并：在Minor合并中，用户可指定合并数据加载的数量。如果设置了参数“carbon.enable.auto.load.merge”，每次数据加载都可触发Minor合并。如果任意segment均可合并，那么合并将于数据加载时并行进行。 Minor合并有两个级别。 Level 1：合并未合并的segment。 Level 2：合并已合并的segment，以形成更大的segment。 Major合并：在Major合并中，许多segment可以合并为一个大的segment。用户将指定合并尺寸，将对未达到该尺寸的segment进行合并。Major合并通常在非高峰时段进行。 Custom合并：在Custom合并中，用户可以指定几个segment的id合并为一个大的segment。所有指定的segment的id必须存在并且有效，否则合并将会失败。Custom合并通常在非高峰时段进行。具体的命令操作，请参考ALTER TABLE COMPACTION。表1 合并参数参数默认值应用类型描述 carbon.enable.auto.load.merge false Minor 数据加载时启用合并。 “true”：数据加载时自动触发segment合并。 “false”：数据加载时不触发segment合并。 carbon.compaction.level.threshold 4,3 Minor 对于Minor合并，该属性参数决定合并segment的数量。例如，如果该参数设置为“2,3”，在Level 1，每2个segment触发一次Minor合并。在Level2，每3个Level 1合并的segment将被再次合并为新的segment。合并策略根据实际的数据大小和可用资源决定。有效值为0-100。 carbon.major.compaction.size 1024mb Major 通过配置该参数可配置Major合并。低于该阈值的segment之和将被合并。例如，如果该阈值是1024MB，且有5个大小依次为300MB，400MB，500MB，200MB，100MB的segment用于Major合并，那么只有相加的总数小于阈值的segment会被合并，也就是300+400+200+100 = 1000MB的segment会被合并，而500MB的segment将会被跳过。 carbon.numberof.preserve.segments 0 Minor/Major 如果用户希望从被合并的segment中保留一定数量的segment，可通过该属性参数进行设置。例如，“carbon.numberof.preserve.segments”=“2”，那么最新的2个segment将不会包含在合并中。默认不保留任何segment。 carbon.allowed.compaction.days 0 Minor/Major 合并将合并在指定的配置天数中加载的segment。例如，如果配置为“2”，那么只有在2天的时间框架中被加载的segment可以被合并。在2天以外被加载的segment将不被合并。默认为禁用。 carbon.number.of.cores.while.compacting 2 Minor/Major 在合并过程中写入数据时所用的核数。配置的核数越大合并性能越好。如果CPU资源充足可以增加此值。 carbon.merge.index.in.segment true SEGMENT_INDEX 如果设置为true，则一个segment中所有Carbon索引文件（.carbonindex）将合并为单个Carbon索引合并文件（.carbonindexmerge）。这增强了首次查询性能。

MAPREDUCE服务 MRS CarbonData数据分析

云服务器内容精选

数据分析

7*24

备案

专业服务

退订

建议反馈

售前咨询热线