使用 C++ 编程语言,实现一个 爬虫程序,来对图片进行下载。
Windows 10
-
先输入一个起始 URL 进入 URL 队列。
-
在当前路径下创建一个文件夹。
#include <Windows.h> CreateDirectory("./images", NULL);
-
获取到当前队列中首部的 URL。
-
解析 URL,主要作用是判断是否是正确的 URL,并且获取到服务器域名和资源路径。
-
连接服务器。
gethostbyname(std::string); // 通过这个函数获取到服务器的 IP 地址
-
获取网页源码。
向服务器发送 HTTP 请求。获取到网页源码。
-
使用正则表达式解析网页源码。
- 如果是图片 URL 就放进先前创建好的数组中。
- 如果是其他 URL 就放进队列中,让其后续循环处理。
-
下载图片。
循环遍历刚才存放图片的数组,重新对图片的 URL 建立连接和获取源码。
去除服务器返回的 HTTP 头部信息,将正文信息写到一个新创建的文件里,放到之前创建的文件夹。