Bootstrap

爬虫工程师的进阶一览图(爬虫工程师水平对照表)根据崔庆才崔大神的文章总结的

根据崔大神的文章总结的爬虫水平对照表

一、初级水平

  1. Python 【语言基础】
  2. requests 【请求相关】
  3. lxml【解析相关】
  4. XPath  【解析相关】 
  5. BeautifulSoup【解析相关】
  6. PyQuery 【解析相关】
  7. MySQL 【数据库】
  8. MongoDB【数据库】
  9. Elasticsearch【我没用过这个,不清楚用到他什么特性】
  10. Kafka【消息队列相关】

二、中级水平 --- Ajax ---多线程 ---多进程等

  1. Ajax【能通过Ajax接口获取数据】
  2. Puppeteer【基于JS的爬虫框架,可直接执行JS】
  3. Pyppeteer【基于Puppeteer开发的python版本,需要python异步知识】
  4. Selenium【常见的自动化工具,支持多语言】
  5. Splash 【我没用过】 英文资料   
  6. 多进程【python多任务基础】
  7. 多线程【python多任务基础】
  8. 协程【python多任务基础】
  9. fiddler 【抓包工具】
  10. mitmproxy【中间人代理工具】
  11. appium【自动化工具】
  12. adb【安卓adb工具】
  13. Charles【抓包工具】

三、高级水平 

  1. RabbitMQ【消息队列相关】
  2. Celery【消息队列相关】
  3. Kafka【消息队列相关】
  4. Redis【缓存数据库 -----》 其实mongodb也可以充当这个角色】
  5. Scrapy-Redis【scrapy的redis组件】
  6. Scrapy-Redis-BloomFilter 【scrapy的布隆过滤器】
  7. Scrapy-Cluster 【我没用过,分布式解决方案】中文资料  英文资料
  8. 验证码破解
  9. IP代理池
  10. 用户行为管理
  11. cookies池   崔神建的代理池开源代码地址
  12. token池
  13. sign
  14. 账号管理

四、更高一级水平 

  1. JS逆向【分析目标站点JS加密逻辑】
  2. APP逆向【xposed可在不改变原应用代码基础上植入自己的代码】

五、神级水平 

  1. 智能化爬虫【我只能仰望】

六、加分项 -- 运维

  1. Kubernetes
  2. Prometheus
  3. Grafana

 

崔庆才 ---- 崔神原文如下

当今大数据的时代,网络爬虫已经成为了获取数据的一个重要手段。

但要学习好爬虫并没有那么简单。首先知识点和方向实在是太多了,它关系到了计算机网络、编程基础、前端开发、后端开发、App 开发与逆向、网络安全、数据库、运维、机器学习、数据分析等各个方向的内容,它像一张大网一样把现在一些主流的技术栈都连接在了一起。正因为涵盖的方向多,因此学习的东西也非常零散和杂乱,很多初学者搞不清楚究竟要学习哪些知识,学习过程中遇到反爬也不知道用什么方法来解决,本篇我们来做一些归纳和总结。

初学爬虫

一些最基本的网站,往往不带任何

;