Scrapy 爬取静态HTML页面

第一次写个人Blog,作为学习生涯的一点小小记录,也是不断摸索前进的一点慰藉。

Upadate 8.29
css选择器(Selectors) 用法

  1. #container 选择id为container的元素
  2. .container 选择所有class包含container的元素
  3. * 选择所有元素
  4. div a 选取所有div下所有a元素
  5. ul + p 选取ul后面的第一个p元素
  6. ul ~p 选取与ul相邻的所有p元素
  7. a:nth-child(2) 选取下面第二个标签,如果是a的话则选取,不是则不取
  8. a:nth-child(2n) 选取第偶数个a元素
  9. a:nth-child(2n+1) 选取第奇数个a元素
  10. li.multi-chosen > a 选取class为multi-chosen的li的所有a元素
  11. a[title] 选取所有拥有title属性的a元素
  12. a[href=”https://www.lagou.com/jobs/3537439.html”] 选取所有href属性为https://www.lagou.com/jobs/3537439.html的a元素
  13. a[href*=”www.lagou.com”] 选取所有href属性值中包含www.lagou.com的a元素
  14. a[href^=”http”] 选取所有href属性值中以http开头的a元素
  15. div:not(#content-container) 选取所有id为非content-container 的div
1
2
3
4
5
6
7
8
9
10
11
12
import scrapy
from First.items import FirstItem

class Lagou(scrapy.Spider):
name = "forth"
start_urls = [
"https://www.lagou.com/zhaopin/Java/"
]


def parse(self , response):
pass
1
2
3
4
def parse(self , response):
for item in response.css('#lg_tnav h1'):
jobMessage = item.css('::text').extract()
print(jobMessage)

参考 笔记暂未写

scrapy爬取script标签中某个var变量的值
Python中使用正则表达式获取两个字符中间部分
Bilibili用户爬虫
这才是B站爬虫的正确姿势,视频、评论、弹幕全部拿下
【python爬虫实战】:不同验证码的自动识别
爬虫之模拟登录、自动获取cookie值、验证码识别
python爬虫解决手机验证码问题
网络爬虫|网页中嵌套iframe框架内容爬取的两种思路
爬虫—scrapy爬虫框架(详细+实战)
浅谈Python两大爬虫库——urllib库和requests库区别
urllib.request详细介绍
pandas read_html使用详解(一)
js爬虫,正则
go语言模拟网站登录并爬虫
python爬虫的重定向问题
爬虫——控制台抓包和requests.post()发送请求
python :codecs模块简介
嵌入的iframe
Python爬取javascript(js)动态网页
python3(urlopen)获取网页的坑
正则表达式-如何简单匹配HTML中a标签的href
正则表达式匹配指定字符串中间内容
python+selenium四:iframe查看、定位、切换