999宝藏网

 找回密码
 

QQ登录

只需一步,快速开始

  • 9阅读
  • 0回复

[视频教程] python爬取小说

[复制链接]

1

主题

2

帖子

7

积分

宝藏幼稚园

Rank: 2

帖子
2
金币
5
威望
0
积分
7
股份
0
热心值
0
宝藏币
0
发表于 2020-3-21 17:45:22 | 显示全部楼层 |阅读模式
环境:Python3.6+Windows开发工具:你喜欢用哪个就用哪个,你开心就好!
主要思路:1 获取主页源代码2 获取章节超链接3 获取章节超链接源码4 获取小说内容5 下载,文件操作
源码:import urllib.requestimport re# 1 获取主页源代码# 2 获取章节超链接# 3 获取章节超链接源码# 4 获取小说内容# 5 下载,文件操作
# 驼峰命名法# 获取小说内容def getNovertContent():    #     html = urllib.request.urlopen("http://www.quanshuwang.com/book/0/269").read()    html = html.decode("gbk")    # 不加括号  不匹配    # 正则表达式  .*?  匹配所有    reg = r'
  • [url=](.*?)[/url]'    # 增加效率的    reg = re.compile(reg)    urls = re.findall(reg,html)    # print(urls)    # 列表    # [(http://www.quanshuwang.com/book/0/269/78850.html,第一章 山边小村),    # (http://www.quanshuwang.com/book/0/269/78854.html,第二章 青牛镇)]    for url in urls:        # 章节的URL地址        novel_url = url[0]        # 章节标题        novel_title = url[1]
            chapt = urllib.request.urlopen(novel_url).read()        chapt_html = chapt.decode("gbk")        # r 表示原生字符串   \ \\d  r"\d"        reg = r'    (.*?)'        # S 代表多行匹配        reg = re.compile(reg,re.S)        chapt_content = re.findall(reg,chapt_html)        # print(chapt_content)        # 列表["   &nbsp二愣子睁大着双眼,直直望着茅草和烂泥糊成的
    "]
            # 第一个参数   要替换的字符串   替换后的字符串        chapt_content = chapt_content[0].replace("    ","")        # print(chapt_content)    字符串  二愣子睁大着双眼,直直望着茅草和烂泥糊成的
            chapt_content = chapt_content.replace("
    ","")
            print("正在保存 %s"%novel_title)        # w 读写模式  wb        # f = open("{}.txt".format(novel_title),'w')        # f.write(chapt_content)
            with open("{}.txt".format(novel_title),'w') as f:            f.write(chapt_content)
            # f.close()
    getNovertContent()
  • 1.发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;微笑

    2.如果你在论坛求助问题,并且已经从坛友或者管理的回复中解决了问题,请把帖子标题加上【已解决】;微笑

    3.如何回报帮助你解决问题的坛友,一个好办法就是给对方加【热心】和【金币】加分不会扣除自己的积分,做一个热心并受欢迎的人!微笑

    回复

    使用道具 举报

    快速回复
    您需要登录后才可以回帖 登录 | 立即加入

    本版积分规则

    返回列表

    |999宝藏网|sitemap|手机版|举报|申请友情链接|  

    免责声明:

    拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表999宝藏网立场!

    999宝藏网论坛所发布的一切破解软件和补丁、注册机以及注册信息,仅限用于学习和研究目的。不得将上述内容用于商业或者非法途径!否则,一切后果请用户自负!

    我们不生产软件,我们只是互联网上的搬运工,本站信息来自互联网,版权争议与本站无关,如果您喜欢该程序,请购买注册正版软件,获得正版优质服务!

    请重视此声明,法律不容忽视!请支持正版,尊重版权!本站如有信息侵犯了您的权益,请联系:www@rin99.com及时删除!

    Powered by Discuz! © 2001-2020 Comsenz Inc. (豫ICP备16009175号) 备案图标 豫公网安备41142602000006号

    Copyright © 2016-2020 999宝藏网 版权所有 All Rights Reserved.

    GMT+8, 2020-4-7 14:29 , Processed in 0.106171 second(s), 26 queries .

    快速回复 返回顶部 返回列表