Scrapy 爬取静态HTML页面
第一次写个人Blog,作为学习生涯的一点小小记录,也是不断摸索前进的一点慰藉。
Upadate 8.29
css选择器(Selectors) 用法
- #container 选择id为container的元素
- .container 选择所有class包含container的元素
- * 选择所有元素
- div a 选取所有div下所有a元素
- ul + p 选取ul后面的第一个p元素
- ul ~p 选取与ul相邻的所有p元素
- a:nth-child(2) 选取下面第二个标签,如果是a的话则选取,不是则不取
- a:nth-child(2n) 选取第偶数个a元素
- a:nth-child(2n+1) 选取第奇数个a元素
- li.multi-chosen > a 选取class为multi-chosen的li的所有a元素
- a[title] 选取所有拥有title属性的a元素
- a[href=”https://www.lagou.com/jobs/3537439.html”] 选取所有href属性为https://www.lagou.com/jobs/3537439.html的a元素
- a[href*=”www.lagou.com”] 选取所有href属性值中包含www.lagou.com的a元素
- a[href^=”http”] 选取所有href属性值中以http开头的a元素
- div:not(#content-container) 选取所有id为非content-container 的div
1 | import scrapy |
1 | def parse(self , response): |
参考 笔记暂未写
scrapy爬取script标签中某个var变量的值
Python中使用正则表达式获取两个字符中间部分
Bilibili用户爬虫
这才是B站爬虫的正确姿势,视频、评论、弹幕全部拿下
【python爬虫实战】:不同验证码的自动识别
爬虫之模拟登录、自动获取cookie值、验证码识别
python爬虫解决手机验证码问题
网络爬虫|网页中嵌套iframe框架内容爬取的两种思路
爬虫—scrapy爬虫框架(详细+实战)
浅谈Python两大爬虫库——urllib库和requests库区别
urllib.request详细介绍
pandas read_html使用详解(一)
js爬虫,正则
go语言模拟网站登录并爬虫
python爬虫的重定向问题
爬虫——控制台抓包和requests.post()发送请求
python :codecs模块简介
嵌入的iframe
Python爬取javascript(js)动态网页
python3(urlopen)获取网页的坑
正则表达式-如何简单匹配HTML中a标签的href
正则表达式匹配指定字符串中间内容
python+selenium四:iframe查看、定位、切换