Scrapy 爬取静态HTML页面

第一次写个人Blog,作为学习生涯的一点小小记录，也是不断摸索前进的一点慰藉。

#container 选择id为container的元素
.container 选择所有class包含container的元素
* 选择所有元素
div a 选取所有div下所有a元素
ul + p 选取ul后面的第一个p元素
ul ~p 选取与ul相邻的所有p元素
a:nth-child(2) 选取下面第二个标签，如果是a的话则选取，不是则不取
a:nth-child(2n) 选取第偶数个a元素
a:nth-child(2n+1) 选取第奇数个a元素
li.multi-chosen > a 选取class为multi-chosen的li的所有a元素
a[title] 选取所有拥有title属性的a元素
a[href=”https://www.lagou.com/jobs/3537439.html”] 选取所有href属性为https://www.lagou.com/jobs/3537439.html的a元素
a[href*=”www.lagou.com”] 选取所有href属性值中包含www.lagou.com的a元素
a[href^=”http”] 选取所有href属性值中以http开头的a元素
div:not(#content-container) 选取所有id为非content-container 的div

import scrapy
from First.items import FirstItem

class Lagou(scrapy.Spider):
    name = "forth"
    start_urls = [
        "https://www.lagou.com/zhaopin/Java/"
    ]


    def parse(self , response):
        pass

def parse(self , response):
    for item in response.css('#lg_tnav h1'):
        jobMessage = item.css('::text').extract()
        print(jobMessage)

参考笔记暂未写

scrapy爬取script标签中某个var变量的值
 Python中使用正则表达式获取两个字符中间部分
 Bilibili用户爬虫
 这才是B站爬虫的正确姿势，视频、评论、弹幕全部拿下
 【python爬虫实战】：不同验证码的自动识别
 爬虫之模拟登录、自动获取cookie值、验证码识别
 python爬虫解决手机验证码问题
 网络爬虫|网页中嵌套iframe框架内容爬取的两种思路
 爬虫—scrapy爬虫框架（详细+实战）
浅谈Python两大爬虫库——urllib库和requests库区别
 urllib.request详细介绍
 pandas read_html使用详解（一）
js爬虫，正则
 go语言模拟网站登录并爬虫
 python爬虫的重定向问题
 爬虫——控制台抓包和requests.post()发送请求
 python ：codecs模块简介
 嵌入的iframe
Python爬取javascript(js)动态网页
 python3（urlopen）获取网页的坑
 正则表达式-如何简单匹配HTML中a标签的href
正则表达式匹配指定字符串中间内容
 python+selenium四：iframe查看、定位、切换

Scrapy爬虫

Scrapy 爬取静态HTML页面

第一次写个人Blog,作为学习生涯的一点小小记录，也是不断摸索前进的一点慰藉。

参考 笔记暂未写

参考笔记暂未写