您现在的位置是:首页 > 正文

python爬虫分享

2024-01-30 23:00:01阅读 0

1、爬取网站:

mmzztt

2、项目说明:

根据model进行分类,model下面有图集,图集下面是图片

3、使用依赖:

import random
from selenium.webdriver.common.by import By
import time
import os
import requests
import parsel
import threading
from selenium import webdriver

4、代码:(注意:下载图片有反爬虫,①需要添加headers,②模拟浏览器操作注意随机sleep)

提示:爬完之后注意检查一下是否爬取完毕,哪个文件夹里面不对,就把它删除之后,重新跑程序,之前爬取的不会再爬取。

import random
import re

from selenium.webdriver.common.by import By
import time
import os
import requests
import parsel
import threading
from selenium import webdriver


# 模特
class Model():
    # 模特姓名
    model_name = ''
    # 模特主页地址
    model_url = ''


# 相册
class Album():
    name = ''
    url = ''
    # 相册里面多少张照片
    page = ''


# 请求
def url_request(url):
    headers = {
        'cookie': 'Hm_lvt_86200d30c9967d7eda64933a74748bac=1654084589; Hm_lpvt_86200d30c9967d7eda64933a74748bac=1654084589; t=dd9f5522044817b834289648b9a38ecc; r=8839',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
    }
    # print("请求网址:" + url)
    response = requests.get(url=url, headers=headers)  # <Response [200]> 返回响应对象 200状态码标识请求成功
    selector = parsel.Selector(response.text)
    response.close()
    return selector


# 获取model对象的集合
def get_model_url():
    # 首页
    main_url = f'https://mmzztt.com/photo/model/'
    sel = url_request(main_url)
    model_name_l

网站文章

  • May Day Holiday

    As a university advocating self-learning and work-rest balance, Marjar University has so many days of rest, including holidays and weekends. Each weekend, which consists of Saturday and Sunday, is a

    2024-01-30 22:59:52
  • Java集合源码浅析(一) : ArrayList

    Java集合源码浅析(一) : ArrayList

    (尊重劳动成果,转载请注明出处:https://yangwenqiang.blog.csdn.net/article/details/105317442冷血之心的博客) 背景 一直都有这么一个打算,那...

    2024-01-30 22:59:23
  • nodejs 开发环境配置-快速切换node版本、npm包源以及热启动

    nodejs 开发环境配置-快速切换node版本、npm包源以及热启动

    nodejs 开发环境配置 快速切换npm版本node版本淘宝镜像

    2024-01-30 22:59:15
  • SpringCloudAlibaba系列微服务搭建笔记一_Nacos

    SpringCloudAlibaba系列微服务搭建笔记一_Nacos

    Spring Cloud 本身并不是一个拿来即用的框架,而是一套规范。主流的 Spring Cloud Netfix 和 Spring Cloud Alibaba 实现了这一套规范微服务常用技术栈:由...

    2024-01-30 22:59:08
  • ffmpeg moov 前移命令

    ffmpeg -i ./old.mp4 -movflags faststart -c copy new.mp4

    2024-01-30 22:58:40
  • Watch的使用

    Watch的使用

    watch 的API完全等同于组件watch 选项的Property:于watchEffect 的比较,watch 允许我们:watch 侦听单个数据源watch侦听函数的数据源有两种类型: 多个数据检测

    2024-01-30 22:58:33
  • yarn设置应用优先级

    LOW VERY_LOW NORMAL(默认) HIGH VERY_HIGH。设置全局最大优先级,默认的是0,要想使用必须放开此限制。设置队列的默认优先级。

    2024-01-30 22:58:18
  • 云计算IaaS、PaaS(iPaaS/aPaaS)以及SaaS以及发展趋势

    在过去的几十年里,国内数字化的快速发展离不开人口红利的实现如今,随着人口红利的消退和疫情的影响,如何利用SaaS信息服务技术与产业的深度融合,促进国内企业的顺利转型,是企业实现高质量发展的重要课题。未来,随着国家工业互联网战略的同步推进,传统企业数字化转型已成为必然趋势。所以要通过构建SaaS多供应链体系,深度赋能传统企业,帮助企业降低成本,提高效率,实现高质量发展。

    2024-01-30 22:57:39
  • 实战经验(6)轮播图

    实战经验(6)轮播图

    【代码】实战经验(6)轮播图。

    2024-01-30 22:57:32
  • 【MongoDB】mongo操作和ROBO 3T操作

    【MongoDB】mongo操作和ROBO 3T操作

    一:数据库操作创建数据库 use demo查看数据库 show dbs删除数据库 db.dropDatabase()二:集合操作创建集合 db.createCollection(name)查看集合 s...

    2024-01-30 22:57:25