从爬取到分析：使用 Pandas 处理头条问答数据-程序员充电站

在当下的内容生态中，头条问答汇聚了海量用户生成的问答数据，这些数据涵盖了用户的兴趣偏好、问题诉求、内容互动等多维度信息，是洞察用户行为、挖掘内容价值的重要资源。而 Pandas 作为 Python 生态中核心的数据处理库，凭借其高效的数据结构和强大的分析功能，成为处理这类非结构化与结构化混合数据的利器。本文将从头条问答数据的爬取入手，逐步讲解如何利用 Pandas 完成数据的清洗、转换与深度分析，让数据从原始的字符流转化为有价值的洞察。

一、头条问答数据爬取：获取原始数据源

在进行数据处理前，首先需要获取头条问答的原始数据。需要说明的是，爬取数据需遵守平台的 robots 协议和相关法律法规，本文仅以模拟的头条问答接口为例进行演示，实际应用中需获取平台的合法授权。

1.1 技术选型与环境准备

我们使用 Python 的requests库发送网络请求，获取接口返回的 JSON 数据；json库用于解析 JSON 格式数据；后续将数据存入pandas的 DataFrame 中。

1.2 模拟爬取实现

以下代码模拟了从头条问答的测试接口获取数据的过程，返回的数据包含问题 ID、问题标题、回答数、阅读数、发布时间、回答内容等字段：

python

importrequestsimportpandasaspdimportnumpyasnpfromdatetimeimportdatetimefromrequests.authimportHTTPProxyAuth# 代理配置信息proxyHost="www.16yun.cn"proxyPort="5445"proxyUser="16QMSOML"proxyPass="280651"defcrawl_toutiao_qa(page=1,page_size=20):""" 模拟爬取头条问答数据（集成代理配置） :param page: 页码 :param page_size: 每页数据量 :return: 爬取的数据列表 """# 模拟接口地址（实际需替换为合法接口）url="https://api.example.com/toutiao/qa"params={"page":page,"page_size":page_size,"category":"technology"# 技术分类问答}headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"}# 构建代理字典：支持http和https协议proxies={"http":f"http://{proxyHost}:{proxyPort}","https":f"https://{proxyHost}:{proxyPort}"}# 代理身份验证（若代理需要账号密码验证则启用）proxy_auth=HTTPProxyAuth(proxyUser,proxyPass)try:# 发送请求时添加代理和身份验证response=requests.get(url,params=params,headers=headers,proxies=proxies,# 配置代理auth=proxy_auth,# 配置代理认证timeout=10)response.raise_for_status()# 抛出HTTP请求异常data=response.json()["data"]# 提取数据部分returndataexceptExceptionase:print(f"爬取数据失败：{e}")return[]# 爬取多页数据total_pages=3qa_data=[]forpageinrange(1,total_pages+1):page_data=crawl_toutiao_qa(page=page,page_size=20)qa_data.extend(page_data)print(f"已爬取第{page}页数据，共{len(page_data)}条")# 转换为DataFramedf=pd.DataFrame(qa_data)print(f"爬取完成，总数据量：{len(df)}条")print("数据前5行：")print(df.head())

上述代码中，crawl_toutiao_qa函数模拟了分页爬取过程，通过循环获取多页数据后，将其转换为 Pandas 的 DataFrame，这是后续数据处理的基础。需要注意的是，实际爬取时需添加反爬措施（如延时、代理 IP 等），并严格遵守平台规则。

二、Pandas 数据预处理：清洗与规整原始数据

爬取的原始数据往往存在缺失值、格式不统一、冗余字段等问题，直接分析会导致结果偏差。Pandas 提供了丰富的函数来完成数据预处理工作。

2.1 数据概览与缺失值处理

首先通过info()和describe()方法查看数据的基本信息，包括字段类型、非空值数量、数值型字段的统计特征：

python

# 数据基本信息print("数据基本信息：")print(df.info())# 数值型数据统计特征print("\n数值型数据统计特征：")print(df.describe())# 缺失值统计print("\n缺失值统计：")print(df.isnull().sum())# 缺失值处理：删除关键字段缺失的行，填充非关键字段缺失值df=df.dropna(subset=["question_id","question_title","answer_count"])# 删除关键字段缺失行df["answer_content"]=df["answer_content"].fillna("无回答内容")# 填充缺失的回答内容df["publish_time"]=pd.to_datetime(df["publish_time"],errors="coerce")# 转换时间格式，错误值设为NaTdf=df.dropna(subset=["publish_time"])# 删除时间转换失败的行

上述代码中，我们删除了question_id、question_title等关键字段的缺失行，因为这些字段是分析的核心；对于answer_content这类非关键字段，用 “无回答内容” 填充；同时将publish_time字段转换为 datetime 类型，方便后续时间维度的分析，转换失败的行直接删除。

2.2 数据格式统一与冗余字段删除

爬取的数据中，可能存在阅读数、回答数等字段为字符串类型（如 “1.2k”“500+”），需要转换为数值型；同时删除无关的冗余字段：

python

defconvert_num(num_str):""" 转换带单位的数字字符串为数值型 :param num_str: 如"1.2k"、"500+" :return: 数值 """ifisinstance(num_str,str):num_str=num_str.replace("+","").strip()if"k"innum_str:returnfloat(num_str.replace("k",""))*1000elif"w"innum_str:returnfloat(num_str.replace("w",""))*10000else:returnfloat(num_str)returnnum_str# 转换阅读数和回答数字段df["read_count"]=df["read_count"].apply(convert_num)df["answer_count"]=df["answer_count"].apply(convert_num)# 删除冗余字段（假设"unrelated_field"是冗余字段）if"unrelated_field"indf.columns:df=df.drop(columns=["unrelated_field"])# 重置索引df=df.reset_index(drop=True)print("\n预处理后数据前5行：")print(df.head())

通过自定义函数convert_num，将带单位的数字字符串转换为浮点型数值，确保数值型字段的格式统一；随后删除冗余字段并重置索引，让数据结构更规整。

三、Pandas 数据分析：挖掘数据价值

完成预处理后，我们可以利用 Pandas 进行多维度的数据分析，从数据中提取有价值的信息。

3.1 基础统计分析：核心指标洞察

首先分析回答数、阅读数的分布特征，找出均值、中位数、最大值等关键指标，了解头条问答数据的整体互动情况：

python

# 回答数与阅读数的统计分析answer_stats=df["answer_count"].agg(["mean","median","max","min","std"])read_stats=df["read_count"].agg(["mean","median","max","min","std"])print("\n回答数统计指标：")print(answer_stats)print("\n阅读数统计指标：")print(read_stats)# 计算阅读数与回答数的相关性corr=df[["read_count","answer_count"]].corr()print("\n阅读数与回答数的相关性：")print(corr)

通过agg()方法计算多个统计指标，能快速掌握数据的集中趋势和离散程度；而相关性分析可以看出阅读数和回答数之间的线性关系，若相关性较高，说明用户阅读量越高的问题，参与回答的意愿也越强。

3.2 时间维度分析：问答发布趋势

利用转换后的publish_time字段，分析不同时间段的问答发布数量和互动情况，挖掘时间分布规律：

python

运行

# 按日期分组，统计每日发布的问答数量df["publish_date"]=df["publish_time"].dt.date daily_qa_count=df.groupby("publish_date")["question_id"].count()print("\n每日发布问答数量：")print(daily_qa_count)# 按小时分组，统计每小时的平均阅读数和回答数df["publish_hour"]=df["publish_time"].dt.hour hourly_stats=df.groupby("publish_hour").agg({"read_count":"mean","answer_count":"mean"})print("\n每小时平均阅读数和回答数：")print(hourly_stats)

通过提取日期和小时维度，分组统计相关指标，能够发现问答发布的高峰期，比如用户可能在晚间时段发布更多问答，且此时的互动量也更高。

3.3 内容维度分析：高互动问答特征

筛选出高阅读、高回答的问答数据，分析其标题的特征（如长度），为内容创作提供参考：

python

运行

# 定义高互动问答：阅读数大于均值的2倍，回答数大于均值的2倍high_interactive_df=df[(df["read_count"]>2*df["read_count"].mean())&(df["answer_count"]>2*df["answer_count"].mean())]# 计算问答标题长度df["title_length"]=df["question_title"].apply(len)high_interactive_df["title_length"]=high_interactive_df["question_title"].apply(len)# 统计高互动问答与普通问答的标题长度均值title_length_stats=pd.DataFrame({"高互动问答":[high_interactive_df["title_length"].mean()],"普通问答":[df["title_length"].mean()]})print("\n标题长度统计：")print(title_length_stats)

通过筛选高互动问答数据，对比其与普通问答的标题长度，能够发现高互动问答的标题是否更简洁或更详细，为后续的内容运营提供数据支撑。

四、总结与拓展

本文从头条问答数据的爬取出发，详细介绍了利用 Pandas 进行数据预处理和分析的完整流程。从代码实现来看，Pandas 的 DataFrame 结构能够高效承载和处理海量的问答数据，其丰富的函数库让缺失值处理、格式转换、分组统计等操作变得简洁高效。

在实际应用中，我们还可以将 Pandas 与可视化库（如 Matplotlib、Seaborn）结合，将分析结果以图表形式展示，更直观地呈现数据规律；也可以结合自然语言处理（NLP）技术，对问答内容进行分词、情感分析，挖掘更深层次的内容价值。需要强调的是，数据爬取和使用需始终遵守法律法规和平台规则，确保数据来源的合法性和数据使用的合规性。

通过以上流程，原本杂乱的头条问答数据被转化为有价值的分析结论，无论是对于内容平台的运营优化，还是对于企业的用户洞察，都能提供有力的决策支持。而 Pandas 作为数据处理的核心工具，在这一过程中发挥的作用不可或缺，也是每一位数据从业者必须掌握的关键技能。

从爬取到分析：使用 Pandas 处理头条问答数据

一、头条问答数据爬取：获取原始数据源

1.1 技术选型与环境准备

1.2 模拟爬取实现

二、Pandas 数据预处理：清洗与规整原始数据

2.1 数据概览与缺失值处理

2.2 数据格式统一与冗余字段删除

三、Pandas 数据分析：挖掘数据价值

3.1 基础统计分析：核心指标洞察

3.2 时间维度分析：问答发布趋势

3.3 内容维度分析：高互动问答特征

四、总结与拓展

.NET周刊【11月第5期 2025-11-30】

【案例共创】从0开始使用华为云开发者空间搭建房价预测模型

通宵测完NanoBanana Pro，我只想说，太牛逼了。

算法题重构字符串

无人机红外图像下极小目标检测数据集，无人机红外小目标检测数据集低空安防、机场净空监测、反无人机系统、鸟类迁徙监控 YOLOv8 构建的无人机红外图像下极小目标检测系统

qt-lambda信号槽机制

一、头条问答数据爬取：获取原始数据源

1.1 技术选型与环境准备

1.2 模拟爬取实现

二、Pandas 数据预处理：清洗与规整原始数据

2.1 数据概览与缺失值处理

2.2 数据格式统一与冗余字段删除

三、Pandas 数据分析：挖掘数据价值

3.1 基础统计分析：核心指标洞察

3.2 时间维度分析：问答发布趋势

3.3 内容维度分析：高互动问答特征

四、总结与拓展

.NET周刊【11月第5期 2025-11-30】

【案例共创】从0开始使用华为云开发者空间搭建房价预测模型

通宵测完NanoBanana Pro，我只想说，太牛逼了。

算法题 重构字符串

无人机红外图像下极小目标检测数据集，无人机红外小目标检测数据集 低空安防、机场净空监测、反无人机系统、鸟类迁徙监控 YOLOv8** 构建的 **无人机红外图像下极小目标检测系统

qt-lambda信号槽机制

算法题重构字符串

无人机红外图像下极小目标检测数据集，无人机红外小目标检测数据集低空安防、机场净空监测、反无人机系统、鸟类迁徙监控 YOLOv8 构建的无人机红外图像下极小目标检测系统