一、requests库的使用
二、正则运算
三、猫眼电影排名的爬取
1、之前准备
网站: https://maoyan.com/board/4
库:requests
2、抓取页面
def get_the_url(url):
headers={
# 若没有设立User-Agent容易被发现为爬虫
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64)
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159
Safari/537.36"
}
response=requests.get(url,headers=headers)
# 判断是否爬取到内容
if(response.text):
return response.text
return 0