网络爬虫如何工作?
一、获取网页
构造一个请求并发送给服务器;接收到响应(页面源代码)并将其解析出来。
二、提取信息
网页的结构有一定的规则,采用正则表达式提取;使用Requests库,我们可以高效快速地从中提取网页信息。
三、保存数据
将提取到的数据保存到某处以便后续使用;保存形式有多种多样,可以保存到文本或者 数据库 。