网络 – 四火的唠叨

最近在写一个程序，去爬热门事件和热门关键词网站上的数据。在这里介绍一下网络爬虫的种种。

基本组件

网络爬虫也叫做网络蜘蛛，是一种互联网机器人，把需要的网页撷取下来，组织成适当格式存储。它是搜索引擎的重要组成部分，虽然从技术实现上来说，它的难度往往要小于对于得到的网页信息的处理。

上面这张图来自维基百科，scheduler 调度多个多线程的下载器下载网页，并把信息和元数据存储起来。而通过解析下载网页的数据，找到链接，又把链接加入到工作队列中去准备下载。这看起来是一个迭代的过程。

网络爬虫相关的几项重要策略：

宴开始。

酒杯盛酒，酒杯碰撞，这是物理层；

你要根据不同人的外貌特征找到你要敬酒的人所坐的位置，这是 IP 协议（网络层）；

你明白，敬酒的实际目的是加深感情，这在应用层，而这酒中的感情，才是报文的数据部分。

你和某位新见面的兄弟互相来回敬酒，这叫 TCP；

你给同一位好兄弟敬酒好多次，死命灌他，他也不回礼，这叫 UDP；

你对全桌的人说，来，咱们同归于尽，这叫广播；

你在对这一桌的人顺序挨个敬酒，这叫令牌环。

你对该兄弟说，初次见面，请多关照，请问阁下尊姓大名，敬酒一杯，这叫 SYN 报文；

这位兄弟说，同是天涯沦落人，

Tag: 网络