999宝藏网

 找回密码
 

QQ登录

只需一步,快速开始

  • 954阅读
  • 1回复

[[Windows]] 爬取超清美图python爬虫学习成品和源码

[复制链接]

7522

主题

1423

回帖

3万

积分

宝藏院长

Rank: 16Rank: 16Rank: 16Rank: 16

回帖
1423
金币
28066
威望
88
积分
38177
股份
940
热心值
596
宝藏币
26

最佳新人活跃会员灌水天才新人进步宝藏新人进步勋章

发表于 2021-4-9 13:23:52 | 显示全部楼层 |阅读模式
爬取超清美图python爬虫学习成品和源码

功能说明:
1.批量爬取高清图
2.支持自定义cookie爬取超清图(需要有会员,不然每天只能爬成功一张)



194854k7epb2gl1l2refbb.jpg
演示视频:
https://www.bilibili.com/video/BV1Cb4y1Q73j/
代码:


  1. import requests, bs4, time, json, os, urllib, time


  2. class NetbiAn():
  3.     def __init__(self, cookie=None):
  4.         '''
  5.         彼岸图库
  6.         :param cookie:  自定义cookie,不填就默认我的cookie
  7.         '''

  8.         self.url = 'https://pic.netbian.com/'
  9.         if cookie == None:
  10.             self.headers = {
  11.                 'cookie': '__yjs_duid=1_5497b819a72afc9101dd25f2d5726a8e1616818734114; __guid=216607383.3773875649706524700.1616818734566.507; Hm_lvt_526caf4e20c21f06a4e9209712d6a20e=1616818735; zkhanecookieclassrecord=%2C54%2C66%2C; PHPSESSID=varai3ubq9gf8ri9vpb7ppsrm5; zkhanmlusername=%B7%B2%CA%C2%BF%B4%C8%BA%CE%C4%BC%FE; zkhanmluserid=4729080; zkhanmlgroupid=1; zkhanmlrnd=zkIOXHSZ8ya4GKjTuTxA; zkhanmlauth=0b23850ea3f69277fce68255bf7e776c; ',
  12.                 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',
  13.                 'x-requested-with': 'XMLHttpRequest'}
  14.         else:
  15.             self.headers = {
  16.                 'cookie': cookie,
  17.                 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',
  18.                 'x-requested-with': 'XMLHttpRequest'}

  19.     def get_HDimg_url(self, id):
  20.         '''
  21.         获取超清图片的下载地址
  22.         :param id:
  23.         :return:
  24.         '''
  25.         api_url = 'https://pic.netbian.com/e/extend/downpic.php'
  26.         params = {'id': id}
  27.         res = requests.get(api_url, headers=self.headers, params=params)

  28.         js = json.loads(res.text)
  29.         return self.url + js['pic']

  30.     def download_img(self, url, path):
  31.         '''
  32.         下载文件
  33.         :param url:地址
  34.         :param path: 保存文件名
  35.         :return:
  36.         '''
  37.         try:
  38.             res = requests.get(url, headers=self.headers)
  39.             with open(path, 'ab')as f:
  40.                 f.write(res.content)
  41.                 print(path, '下载成功!')
  42.         except Exception as err:
  43.             print(err, '下载失败!')

  44.     def get_img_list(self, url='https://pic.netbian.com/new/', max_page=1, HD='1'):
  45.         '''
  46.         根据输入的目标类目url来爬取所属的图片,比如最新的的[url=https://pic.netbian.com/new/]https://pic.netbian.com/new/[/url]
  47.         :param url:目标类目的url
  48.         :param max_page:爬取多少页 默认为1
  49.         :param HD:是否爬取超清的图片,注意了这个需要您有会员,不然一天只能爬1张..没啥意义默认为False
  50.         :return:返回一个包含所有图片下载地址和name的列表
  51.         '''
  52.         img_list = []
  53.         #如果有人输入了这种带页码的网站则处理一下
  54.         if url.find('index_')!=-1:
  55.             url=url.split('index_')[0]

  56.         try:
  57.             for page in range(max_page):
  58.                 print(f'正在获取{page+1}页的 图片资料...')
  59.                 if page+1>=2:
  60.                     res = requests.get(url+f'index_{page+1}.html', headers=self.headers)
  61.                 else:
  62.                     res = requests.get(url, headers=self.headers)
  63.                 res.encoding = 'gbk'
  64.                 bson = bs4.BeautifulSoup(res.text, 'lxml')
  65.                 bson = bson.select('#main > div.slist > ul > li')

  66.                 for item in bson:
  67.                     d = {}
  68.                     d['href'] = self.url + item.a['href']
  69.                     res = requests.get(d['href'], headers=self.headers)
  70.                     res.encoding = 'gbk'
  71.                     bs = bs4.BeautifulSoup(res.text, 'lxml')
  72.                     bs = bs.select_one('#img > img')
  73.                     img_id = d['href'].split('/')[-1].split('.')[0]
  74.                     if HD == '1':

  75.                         d['src'] = self.url+bs['src']
  76.                     else:
  77.                         # 超清
  78.                         d['src'] = self.get_HDimg_url(img_id)
  79.                     d['title'] = item.img['alt']
  80.                     d['name'] = img_id + '_' + d['title'].replace(' ', '_') + '.' + \
  81.                                 d['src'].split('.')[-1]
  82.                     img_list.append(d)
  83.         except Exception as err:
  84.             print(err)
  85.         return img_list

  86.     def download_batch(self, img_list, dir_, tt=0.2):
  87.         '''
  88.         把整个列表的图都下载下来,因为有限制,所以没必要搞线程
  89.         :param img_list: 图片的列表数据
  90.         :param dir: 保存目录位置
  91.         :param tt: 每次下载等待时间 默认为0.2s
  92.         :return:
  93.         '''
  94.         length=len(img_list)
  95.         if length==0:
  96.             print('您不是会员,或者已经被限制了!')
  97.             return
  98.         print(f'一共有{length}个下载任务...')
  99.         try:
  100.             os.mkdir(dir_)
  101.         except:
  102.             pass
  103.         for item in img_list:
  104.             path = dir_ + '\\' + item['name']
  105.             self.download_img(item['src'], path)
  106.             time.sleep(tt)


  107. if __name__ == '__main__':
  108.     print('本脚本目标网站为:[url]https://pic.netbian.com/'[/url],'仅供技术交流,请勿用户违法或者商业用途,否则后果自负!')
  109.     print('建议:(30元年会可以自己登入后将cookie粘贴到下方,这样就能每天至少能爬取200张超清图10页,而1块钱7天的会员就每天20张,只能爬一页)')
  110.     key = input('回车确认cookie身份 如果需要自定义cookie可以直接输入 留空也可以:\n')
  111.     if len(key) > 5:
  112.         bah = NetbiAn(key)
  113.     else:
  114.         bah = NetbiAn()
  115.     HD = input('是否下载超清画质(如果有会员可以填2,不是会员就填1):\n1.普通画质\n2.超清画质\n')
  116.     type_url = input('输入目标类目的url,如果不填默认为:[url=https://pic.netbian.com/new/]https://pic.netbian.com/new/[/url]\n')
  117.     max_page=int(input('爬取多少页?\n'))
  118.     if type_url=='':
  119.         img_list = bah.get_img_list(max_page=max_page,HD=HD)
  120.     else:
  121.         img_list=bah.get_img_list(type_url,max_page,HD)

  122.     bah.download_batch(img_list,'img')
  123.     input('所有任务结束!')
复制代码


1.发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;微笑

2.如果你在论坛求助问题,并且已经从坛友或者管理的回复中解决了问题,请把帖子标题加上【已解决】;微笑

3.如何回报帮助你解决问题的坛友,一个好办法就是给对方加【热心】和【金币】加分不会扣除自己的积分,做一个热心并受欢迎的人!微笑

回复

使用道具 举报

47

主题

6807

回帖

1万

积分

宝藏教授

Rank: 14Rank: 14Rank: 14Rank: 14

回帖
6807
金币
7620
威望
1
积分
14476
股份
0
热心值
1
宝藏币
0
发表于 2021-4-10 06:16:24 | 显示全部楼层
谢楼主提供!

1.发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;微笑

2.如果你在论坛求助问题,并且已经从坛友或者管理的回复中解决了问题,请把帖子标题加上【已解决】;微笑

3.如何回报帮助你解决问题的坛友,一个好办法就是给对方加【热心】和【金币】加分不会扣除自己的积分,做一个热心并受欢迎的人!微笑

回复 支持 反对

使用道具 举报

快速回复
您需要登录后才可以回帖 登录 | 立即加入

本版积分规则

返回列表

|999宝藏网|sitemap|手机版|举报|申请友情链接|  

免责声明:

拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表999宝藏网立场!

999宝藏网论坛所发布的一切破解软件和补丁、注册机以及注册信息,仅限用于学习和研究目的。不得将上述内容用于商业或者非法途径!否则,一切后果请用户自负!

我们不生产软件,我们只是互联网上的搬运工,本站信息来自互联网,版权争议与本站无关,如果您喜欢该程序,请购买注册正版软件,获得正版优质服务!

请重视此声明,法律不容忽视!请支持正版,尊重版权!本站如有信息侵犯了您的权益,请联系:www@rin99.com及时删除!

Powered by Discuz! © 2001-2024 Comsenz Inc. (豫ICP备2021033223号) 备案图标 豫公网安备41142602000006号

Copyright © 2016-2024 999宝藏网 版权所有 All Rights Reserved.

GMT+8, 2024-3-29 06:25 , Processed in 0.148429 second(s), 45 queries .

快速回复 返回顶部 返回列表