anyuan2002.com - vwin网

查找: 您的方位主页 > 电脑频道 > 电脑教程 > 阅览资讯:Python爬虫爬取腾讯视频动漫专区的动漫及其描绘

Python爬虫爬取腾讯视频动漫专区的动漫及其描绘

2019-04-01 04:28:30 来历:www.anyuan2002.com 【

Python爬虫爬取腾讯视频动漫专区的动漫及其描绘

闲来无事爬点动漫资讯看看

下面这个是腾讯视频动漫板块的超链接
[https://v.qq.com/channel/cartoon?listpage=1&channel=cartoon&iarea=1]
Python爬虫爬取腾讯视频动漫专区的动漫及其描绘
上面的红框中第一个是动漫的标题,第二个是动漫的咨询简略描绘

怎么用Python爬取上述信息

首要要用浏览器的开发者东西查到相应的信息真实那几个html文件中Python爬虫爬取腾讯视频动漫专区的动漫及其描绘

上面的红框中便是对应的标签,但咱们用正则表达式取标签的时分应该尽量取它的上一层标签(由于假如单单取名字标签,很难把对应的描绘最终对应起来

之后就开端代码的编写了

# -*- coding: utf-8 -*-
# @Time  : 2019/3/25 17:26
# @Author : 
# @Email  : 
# @File  : .py
# @Software: PyCharm

import urllib.request
import re
from lxml import etree


def cartoonCrawler(url):
  headers = {
    "User-Agnet": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER"
  }
  req = urllib.request.Request(url, headers = headers)
  response = urllib.request.urlopen(req)
  HTML = response.read().decode("utf-8")

  # re.S匹配换行符
  cartoon1 = re.compile(r'<div class="figure_detail figure_detail_two_row">(.+?)</div>',re.S).findall(HTML)
  # print(cartoon1)
  dictCartoon = {}
  for i in cartoon1:
    # 将字符串转化为文本方式
    i=etree.HTML(i)
    # 关于xpath的详见https://blog.csdn.net/it_arookie/article/details/82825448
    name = i.xpath("//a[@class='figure_title figure_title_two_row bold']/@title")
    title = i.xpath("//div[@class='figure_desc']/@title")
    # 将匹配的不同标签的字典用字典的方式来组合成键值对
    dictCartoon[name[0]]=title[0]

  return dictCartoon

url = "https://v.qq.com/channel/cartoon?listpage=1&channel=cartoon&iarea=1"
info = cartoonCrawler(url)

print(info)
for k,v in info.items():
  print("标题:",k," 描绘:"+v)
  

成果,最终还能够经过动态恳求持续获取的恳求 ,这个下次再说


{'斗罗大陆': '此生不悔入唐门', '狐妖小红娘': '鞘笛不离 执迷不悟', '武动六合': '武之极,破天穹,动六合', '灵剑尊': '落魄少主闯练大陆,六合三界,我为至尊!', '雄兵连之诸天来临': '抗击外星侵略', '万界神主': '陨落古神,漫游苍蓝', '雪鹰领主': '超凡看护 热“雪”来袭', '魔道祖师': '仙门少年除暴安良斩邪祟', '通灵妃': '年度鬼畜爱情大戏', '画江湖之不夫君 第3季': '王者弈全国 大唐生死局', '猫妖的引诱 正式版': '自古爱恨两难,当然是插他两刀', '巨兵长城传 第1季': '一场关乎国际安危的冒险', '狠西游 第2季': '18年12月 绝地重生!', '地灵曲': '3D动画版鬼吹灯', '斗破天穹 第2季': '萧炎归来 风云复兴', '全职高手': '十年热血书写电竞光辉', '武庚纪 第2季': '商朝王子武庚逆袭记', '妖神记之影妖篇': '聂离交融妖灵敏捷生长', '一人之下 第2季': '如火如荼罗天大醮', '斗罗大陆2 绝世唐门 动态漫画': '唐三之后,斗罗大陆新星来临。', '非人哉': '神仙妖怪的爆笑日常', '星斗变 第1季': '少年逆天改命成王', '超神学院之雄兵连': '世纪大战剑拔弩张', '天行九歌': '超高颜值的权谋史诗', '刺客伍六七': '奥秘美少女的遗愿清单', '万界仙踪': '少年掌门人 担负血海深仇', '全职法师 第3季': '法师集结,决战狂魔', '斗破天穹 特别篇': '9月30日萧炎上线!', '动态漫画·驸马不要啊': '蛮横公主征服纨绔子弟', '妖神记 第2季': '成为最强妖灵师'}
标题: 斗罗大陆  描绘:此生不悔入唐门
标题: 狐妖小红娘  描绘:鞘笛不离 执迷不悟
标题: 武动六合  描绘:武之极,破天穹,动六合
标题: 灵剑尊  描绘:落魄少主闯练大陆,六合三界,我为至尊!
标题: 雄兵连之诸天来临  描绘:抗击外星侵略
标题: 万界神主  描绘:陨落古神,漫游苍蓝
标题: 雪鹰领主  描绘:超凡看护 热“雪”来袭
标题: 魔道祖师  描绘:仙门少年除暴安良斩邪祟
标题: 通灵妃  描绘:年度鬼畜爱情大戏
标题: 画江湖之不夫君 第3季  描绘:王者弈全国 大唐生死局
标题: 猫妖的引诱 正式版  描绘:自古爱恨两难,当然是插他两刀
标题: 巨兵长城传 第1季  描绘:一场关乎国际安危的冒险
标题: 狠西游 第2季  描绘:18年12月 绝地重生!
标题: 地灵曲  描绘:3D动画版鬼吹灯
标题: 斗破天穹 第2季  描绘:萧炎归来 风云复兴
标题: 全职高手  描绘:十年热血书写电竞光辉
标题: 武庚纪 第2季  描绘:商朝王子武庚逆袭记
标题: 妖神记之影妖篇  描绘:聂离交融妖灵敏捷生长
标题: 一人之下 第2季  描绘:如火如荼罗天大醮
标题: 斗罗大陆2 绝世唐门 动态漫画  描绘:唐三之后,斗罗大陆新星来临。
标题: 非人哉  描绘:神仙妖怪的爆笑日常
标题: 星斗变 第1季  描绘:少年逆天改命成王
标题: 超神学院之雄兵连  描绘:世纪大战剑拔弩张
标题: 天行九歌  描绘:超高颜值的权谋史诗
标题: 刺客伍六七  描绘:奥秘美少女的遗愿清单
标题: 万界仙踪  描绘:少年掌门人 担负血海深仇
标题: 全职法师 第3季  描绘:法师集结,决战狂魔
标题: 斗破天穹 特别篇  描绘:9月30日萧炎上线!
标题: 动态漫画·驸马不要啊  描绘:蛮横公主征服纨绔子弟
标题: 妖神记 第2季  描绘:成为最强妖灵师`





 
 

本文地址:http://www.anyuan2002.com/dnjc/100183.html
Tags: python 爬取 爬虫
修改:vwin网
关于咱们 | 联络咱们 | 友情链接 | 网站地图 | Sitemap | App | 回来顶部