news 2026/4/18 5:35:55

爬取b站的网页信息

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
爬取b站的网页信息

问题一:只能爬取到第一页的内容

对响应输出,不管怎么改url后面的内容的内容都是一样的

import requests headersvalue={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/143.0.0.0 Safari/537.36 Edg/143.0.0.0' } url='https://search.bilibili.com/all?keyword=labubu&from_source=webtop_search&spm_id_from=333.1007&search_source=3&page=3&o=48' r=requests.get(url,headers=headersvalue) print(r.request.headers) print(r.url) print(r.status_code) print(r.text)

可能性分析:

1.核心数据是前端通过 Ajax 动态加载的,直接请求我写的 URL,返回的是 “空壳 HTML”(只包含页面框架,数据靠 JS 渲染)

尝试定位api接口的位置:

直接搜search更方便

点进去看响应,没有发现我们想要的title什么的

退回去一个一个api看,找到了两个有点像的

第一个就是suggest,根据翻译猜测是推荐框

第二个是detail,仔细翻阅有我想要的标题,up主等信息

写到这里,我试了很久,决定暂时放弃,下面学到的内容很有用

问题二:爬取b站的入站必刷、综合热门的信息

首先,有一点很重要的,我之前一直以为爬取的内容是响应的text文本里的内容,其实不是的,text里的内容是服务器返回的原始内容,是没有经过处理的,我们要对text进行json解析,解析成字典或者是列表

明确这点的话,那我们找到合适的响应内容,能够解析成json格式的链接

像上面那样的,是我们需要的,找到以后就可以拿到网址(在标头里的请求url)

import requests headersvalue1= { 'User-Agent': '自己的', 'Referer': '自己的', 'Cookie':"自己的" } params1={'number':350} url1='https://api.bilibili.com/x/web-interface/popular/series/one' r1= requests.get(url1, headers=headersvalue1,params=params1) print(r1.status_code) print(r1.json() ) print("\n") headersvalue2={ "user-agent":"自己的", "Referer":"自己的", "Cookie":"自己的" } params2={'page_size':100,'page':1} url2='https://api.bilibili.com/x/web-interface/popular/precious' r2= requests.get(url2, headers=headersvalue2,params=params2) print(r2.status_code) print(r2.json() )

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 17:45:09

从资产台账录入员到项目经理:我在友为软件的8年资产系统深耕路

今天整理旧电脑,翻到2017年的实施工程日志,才惊觉:原来我已经和友为软件一起,走过了整整八年多。我愣了一下——那个连资产卡片信息都不敢乱改的实施新人,如今已带队交付过房地产、制造、医疗、高校、零售、旅游等30多…

作者头像 李华
网站建设 2026/4/16 22:20:44

基于java的SpringBoot/SSM+Vue+uniapp的老年公寓管理系统的详细设计和实现(源码+lw+部署文档+讲解等)

文章目录前言详细视频演示具体实现截图技术栈后端框架SpringBoot前端框架Vue持久层框架MyBaitsPlus系统测试系统测试目的系统功能测试系统测试结论为什么选择我代码参考数据库参考源码获取前言 🌞博主介绍:✌全网粉丝15W,CSDN特邀作者、211毕业、高级全…

作者头像 李华
网站建设 2026/4/18 2:48:04

22、深入解析fwsnort:网络攻击检测与响应的利器

深入解析fwsnort:网络攻击检测与响应的利器 1. fwsnort规则激活与命令行选项 fwsnort是一款强大的工具,可将Snort规则转换为iptables策略,以增强网络安全防护。在使用fwsnort时,首先需要激活规则链,让iptables将流量引导至这些规则进行处理。 在fwsnort.sh脚本的最后部…

作者头像 李华
网站建设 2026/4/16 3:58:49

23、深入解析 fwsnort 与 psad 的协同防御机制

深入解析 fwsnort 与 psad 的协同防御机制 在网络安全领域,有效抵御各类攻击是至关重要的任务。fwsnort 和 psad 作为两款强大的工具,各自具备独特的功能,而将它们结合使用,能够显著提升网络的安全性。本文将详细介绍 fwsnort 的部署、白名单和黑名单的设置,以及如何将 f…

作者头像 李华
网站建设 2026/4/11 6:27:03

28、深入了解fwknop:安全访问的利器

深入了解fwknop:安全访问的利器 1. fwknop基础配置 fwknop是一款强大的安全访问工具,在使用前需要进行一系列的基础配置。 首先,在fwknop客户端命令行中,使用 -s 参数在SPA包中放置通配符IP地址是不被接受的。并且, REQUIRE_SOURCE_ADDRESS 需设置为 Y 。 邮件地…

作者头像 李华
网站建设 2026/4/15 20:13:03

30、网络安全中的数据可视化与端口扫描分析

网络安全中的数据可视化与端口扫描分析 在当今开放的互联网环境中,网络安全面临着诸多挑战。安全设备如入侵检测系统和防火墙在应对来自全球各地的攻击时,会产生大量的事件数据。如何从这些海量数据中提取有价值的信息,成为了安全管理员的重要任务。本文将介绍一些网络安全…

作者头像 李华