联系

从 0 开始学爬虫

内容简介

无论是过去的“搜索引擎”,还是时下热门的“数据分析”,爬虫都是获取数据必不可少的手段。数据时代,不管你是什么技术方向,爬虫都是你应该掌握的技能。另外,我们写程序的人,都有天生的“好奇心”,相信我,掌握爬虫后,你看到很多“有趣”的东西!

现在学爬虫,当然是 Python 爬虫,这是当下的绝对主流。这次专栏我们将以 Python-Scrapy 框架学习爬虫。只要具备 Python 基础,这次专栏足以让你从完全不懂爬虫,到有能力在工作中实际开发爬虫、使用爬虫。

通过学习爬虫,你也可以掌握很多 Python 本身的知识,专栏中引用的相关知识点,都细心地为你标注了出处,方便你自行深入。希望这个专栏能成为打开你“全栈式开发”大门的钥匙,让你看到更广阔的技术世界。

从 0 开始学爬虫

资源目录

-代码开始-

第一章 0基础学网络爬虫

01 开篇词:为什么要学爬虫?

02 网络爬虫基础知识准备及基本开发环境介绍

03 HTTP 协议通信原理与 HTML 基础入门

04 动手开发最简单的单文件爬虫

第二章 新闻供稿专用爬虫—抓取RSS订阅数据

05 Python 世界最流行的网络爬虫框架 Scrapy

06 新闻供稿专用爬虫开发实践

第三章 网易爬虫—泛爬网技术

07 常见爬网方式与网页结构分析思路

08 学习正则表达式—基础入门

09 学习正则表达式—构造复杂模式

10 Python中的正则表达式用法

11 编写网易爬虫NeteaseSpider让它“爬”起来

第四章 网易爬虫的优化—大规模数据处理技术

12 用 ItemLoader 解决网页数据多样性的问题

13 去重处理— 高性能爬虫调优技术

14 高效的布隆过滤器 – RedisBloomDupeFilter

15 为网易爬虫配置存储大规模数据存储

16 增量式爬虫与增量爬网策略设计

第五章 豆瓣读书爬虫—测试驱动设计与反爬技术

17 数据提取过程中的类型化方法

18 测试驱动开发(TDD)网络爬虫项目

19 测试BookSpider

20 基于SQL的数据导出机制

21 反爬之客户端仿真

22 反爬之反跟踪与随机代理

23 分布式网络爬虫

第六章 花瓣网爬虫—深度集成JS的网站

花瓣网爬虫的分析和设计

打开花瓣网的大门

用Splash服务处理花瓣网JS网页—高速方案

用Chrome无头浏览器处理JS网页——简单方案

将采集到的图片存储于阿里云oss

第七章 干货分享

Scrapy架构总结与经验补充

专栏福利Scrapy-plus

写在最后

-代码结束-

您可能还喜欢...

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注