news 2026/4/18 1:27:34

python爬取时怎么获取头部header

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
python爬取时怎么获取头部header

在 Python 爬虫开发中,HTTP Header(请求头 / 响应头)是核心环节:请求头(Request Header)用于模拟浏览器身份、传递请求参数,避免被反爬;响应头(Response Header)包含服务器返回的状态、编码、Cookie 等关键信息。以下分场景详细讲解如何构造请求头从浏览器获取真实请求头提取响应头,并结合requestsSelenium等常用库给出示例。


一、核心概念:请求头 vs 响应头

类型作用常见字段
请求头客户端向服务器发送请求时携带的信息,用于标识请求身份、偏好等User-AgentRefererCookieAcceptAccept-EncodingOrigin
响应头服务器向客户端返回响应时携带的信息,包含响应状态、数据格式、Cookie 等Set-CookieContent-TypeContent-EncodingServerDate

二、场景 1:手动构造请求头(Request Header)

爬取普通网页时,最常用的方式是手动构造请求头,核心是设置User-Agent(模拟浏览器),复杂场景需补充CookieReferer等。

1. 基础示例(使用requests库)

import requests # 1. 构造请求头字典(核心字段按需添加) headers = { # 必选:模拟浏览器标识(关键反爬字段) "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36", # 可选:表示请求来源页面(部分网站会验证) "Referer": "https://www.jd.com/", # 可选:接受的数据格式 "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8", # 可选:接受的编码格式 "Accept-Encoding": "gzip, deflate, br", # 可选:语言偏好 "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8", # 可选:Cookie(需从浏览器获取,用于保持登录状态) "Cookie": "xxx=xxx; yyy=yyy;" } # 2. 发送请求时携带请求头 url = "https://www.example.com" response = requests.get(url, headers=headers) print("请求是否成功:", response.status_code) # 200表示成功

2. 常用请求头字段说明

字段名必选作用
User-Agent标识客户端类型(浏览器 / 爬虫),缺少或异常会被反爬拦截
Cookie携带用户登录状态、会话信息,爬取需要登录的页面时必须
Referer告诉服务器请求的来源,部分网站会验证该字段防止跨站请求
Origin跨域请求时携带,标识请求的源域名
Accept告诉服务器客户端能接受的响应数据格式

三、场景 2:从浏览器开发者工具获取真实请求头

手动构造的请求头可能不够 “真实”,尤其是面对反爬严格的网站(如京东、淘宝),直接复制浏览器的真实请求头是最可靠的方式。

操作步骤(以 Chrome 浏览器为例)

  1. 打开目标网页,按F12或右键→检查,打开开发者工具;
  2. 切换到Network(网络)标签,刷新页面(确保捕获所有请求);
  3. 在请求列表中找到目标请求(通常是第一个Doc类型的请求,或 API 接口请求);
  4. 点击该请求,在右侧Headers(标头)中找到Request Headers(请求头)
  5. 复制全部请求头(可右键→CopyCopy as cURLCopy headers),转换为 Python 字典。

四、场景 3:获取服务器返回的响应头(Response Header)

发送请求后,可通过requests库的响应对象直接提取响应头,用于获取 Cookie、响应编码、服务器信息等。

五、场景 4:用 Selenium 获取浏览器的真实请求头 / 响应头

对于动态渲染的页面(如 JS 加载的内容),Selenium可模拟真实浏览器的请求,通过抓包或浏览器日志获取请求头 / 响应头。

方法 1:直接获取 Selenium 的请求头(通过webdriver

from selenium import webdriver from selenium.webdriver.chrome.options import Options # 配置Chrome选项 chrome_options = Options() chrome_options.add_argument("--headless=new") # 无头模式(可选) driver = webdriver.Chrome(options=chrome_options) # 访问目标页面 driver.get("https://www.jd.com") # 执行JS获取浏览器的User-Agent(间接获取请求头核心字段) user_agent = driver.execute_script("return navigator.userAgent;") print("Selenium的User-Agent:", user_agent) # 关闭浏览器 driver.quit()

方法 2:通过mitmproxy/Charles抓包获取 Selenium 的请求头

如果需要完整的请求头 / 响应头,可使用抓包工具(如mitmproxy、Charles、Fiddler)拦截 Selenium 的请求,步骤如下:

  1. 启动抓包工具,设置代理端口(如8080);
  2. Selenium 配置代理,指向抓包工具;
  3. 访问目标页面,抓包工具会捕获所有请求的头信息。

六、实用技巧与注意事项


总结

获取和使用 Header 的核心是模拟真实浏览器的请求行为

简单场景:手动构造User-Agent等核心字段;

复杂场景:从浏览器复制真实请求头,或用抓包工具获取;

响应头:通过requestsresponse.headers直接提取。

结合反爬策略(如随机User-Agent、更新 Cookie),可大幅提升爬虫的稳定性和成功率。

  1. 请求头的大小写requests库会自动处理请求头的大小写(如user-agentUser-Agent等效),无需严格区分;
  2. Cookie 的时效性:Cookie 通常有过期时间,爬取需要登录的页面时,需定期更新 Cookie;
  3. User-Agent 池:为避免被识别为爬虫,可维护一个User-Agent池,每次请求随机选择一个;
  4. 避免过度携带字段:并非所有请求头字段都需要,核心字段(User-Agent)满足后,多数网站可正常访问;
  5. 遵守 robots 协议:爬取前查看网站的robots.txt(如https://www.jd.com/robots.txt),避免爬取禁止的内容。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/3 0:42:26

PLL频率合成器电路(SMIC 40nm工艺,参数:Vref=40M,Out_PLL=2.4G...

pll频率合成器电路 smic40nm工艺 1.vref40M 2.out_pll2.4G 3.Icp100u 4.Kvco50M 5.bandwidth200k今天咱们来搞个实战型的PLL频率合成器设计,用SMIC40nm工艺搓个2.4GHz的时钟。老规矩,先上架构图(假装这里有图):传统电荷…

作者头像 李华
网站建设 2026/4/16 16:55:03

宏智树AI:重塑学术写作,开启智能研究新时代

在学术研究的漫长征途中,论文写作始终是研究者面临的核心挑战。从灵光一现的研究构思,到严谨规范的学术成文,这一过程不仅考验着学者的专业知识,更是一场对逻辑思维、时间管理和表达能力的全面考验。今天,宏智树AI正式…

作者头像 李华
网站建设 2026/4/17 8:52:16

数据脱敏≠彻底销毁:Open-AutoGLM恢复控制机制详解

第一章:数据脱敏≠彻底销毁:Open-AutoGLM恢复控制机制详解在数据安全与隐私保护日益重要的今天,许多企业误将“数据脱敏”等同于“数据彻底销毁”,然而事实并非如此。脱敏仅是对敏感信息进行遮蔽或替换,原始数据仍可能…

作者头像 李华
网站建设 2026/4/18 3:52:44

LangFlow集成Prometheus+Grafana做可观测性

LangFlow 集成 Prometheus Grafana 实现 AI 工作流可观测性 在 AI 应用快速落地的今天,大语言模型(LLM)驱动的工作流已广泛应用于智能客服、自动化报告生成、代码辅助等场景。然而,随着流程复杂度上升,开发者面临一个…

作者头像 李华
网站建设 2026/4/17 10:16:03

Electron API 速查与配置模板(2025 年最新版)

Electron API 速查与配置模板(2025 年最新版) 以下是 Electron 开发中最常用 API 的快速参考表,以及生产级项目推荐的标准配置模板(基于 Electron 33,Chromium 128)。 1. 核心模块速查表 模块常见 API用…

作者头像 李华
网站建设 2026/4/18 3:49:29

Playwright 开发环境配置

Playwright 开发环境配置指南(2025 年最新版) Playwright 的开发环境配置非常简单,尤其推荐使用 Visual Studio Code (VS Code) 作为 IDE,因为它有官方扩展支持,能提供测试运行、调试、录制、Trace 查看等一体化体验。…

作者头像 李华