news 2026/4/17 21:15:45

【BUG】【Python】【爬虫】爬取加载中的数据

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【BUG】【Python】【爬虫】爬取加载中的数据

示例网页链接:https://movie.douban.com/subject/36907263/

BUG

浏览器开发者模式可以看到所需信息有对应的HTML显式结构

但代码爬取时发现结构被hidden,需要二次加载

importrequests url='https://movie.douban.com/subject/36907263/'headers={'User-Agent':'Mozilla/5.0'}response=requests.get(url,headers=headers)print(response.text)


即便使用selenium将修改type属性,让其不隐藏,再取出被隐藏的数据,也不行

fromseleniumimportwebdriver driver=webdriver.Chrome()driver.get('https://movie.douban.com/subject/36907263/')js="document.getElementById('red').type='text';"driver.execute_script(js)content=driver.find_element(by='id',value='red').textprint(content)driver.quit()



其实我觉得这个逻辑是对的,但结果非预期,求助是不是哪块代码没写对? T^T 想打印下修改后的HTML也没打印出来 o(╥﹏╥)o

DEBUG

Selenium 的核心功能是模拟用户在浏览器中的操作,所以只需要增加等待时间,等待页面全部加载出来即可。加载后的页面就是我们在浏览器开发者模式下看到的全部HTML结构。

fromseleniumimportwebdriverimporttime driver=webdriver.Chrome()driver.get('https://movie.douban.com/subject/36907263/')time.sleep(5)# 等待页面加载content=driver.find_element(by='id',value='info').textprint(content)driver.quit()


注意加载后要找的就是加载后的数据,即id=info,不再是之前的id=red。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 7:05:33

深入了解大数据领域Hive的HQL语言特性

深入了解大数据领域Hive的HQL语言特性 关键词:Hive、HQL、大数据查询、分区表、元数据、MapReduce、UDF 摘要:本文将带你像拆积木一样拆解大数据领域的“查询利器”HiveQL(简称HQL)。我们会从HQL的诞生背景讲起,用“图…

作者头像 李华
网站建设 2026/4/17 8:58:28

音视频学习(八十六):宏块

什么是宏块(Macroblock)? 在传统的视频编码标准(如 MPEG-2 或 H.264)中,宏块是进行预测、变换、量化和编码的基本单元。 基本组成: 一个标准的宏块通常涵盖 16x16 个像素的亮度(Luma…

作者头像 李华
网站建设 2026/4/17 17:44:46

深度测评10个AI论文平台,研究生高效写作必备!

深度测评10个AI论文平台,研究生高效写作必备! AI 工具如何重塑研究生的学术写作之路 在当今科研与学术写作日益数字化的背景下,AI 工具正逐步成为研究生们不可或缺的得力助手。从初稿生成到内容优化,再到降重处理,这些…

作者头像 李华
网站建设 2026/4/16 20:04:21

【计算机毕设选题】基于Spark的双十一美妆数据可视化系统源码 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘

✍✍计算机编程指导师 ⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡如果你遇到具体的…

作者头像 李华
网站建设 2026/4/18 7:57:38

Vue3+Node.js实现文件上传并发控制与安全防线 进阶篇

上一篇我们实现了最基础的 FormData 上传,体会了前后端的基础联调。但如果在面试中被问到:“如果用户上传了一个 10GB 的文件怎么办?”或者“用户同时选了 100 张图片,浏览器卡死怎么办?”这就需要用到进度监听、双端校…

作者头像 李华
网站建设 2026/4/18 7:36:38

第二周作业wp

第二周作业wp [SWPUCTF 2021 新生赛]easyupload3.0 题目提示已经很明显了,我们要提交一个.jpg的文件。那么我们就把一个木马文件做成jpg文件。 这里我们把文件成功上传,然后通过蚁剑连接 连接之后,寻找flag。 如图,成功找到。 2…

作者头像 李华