计算机网络专科毕业设计：从零实现一个轻量级HTTP代理服务器（含并发与安全考量）-程序员充电站

计算机网络专科毕业设计：从零实现一个轻量级HTTP代理服务器（含并发与安全考量）

1. 为什么选“HTTP代理”当毕设？

做毕设最怕两件事：

选题太“水”，老师一眼看穿只能拿及格；
技术太“重”，三个月写不完，最后靠 PPT 续命。

HTTP 代理正好卡在中间：

网络协议全栈覆盖——TCP、HTTP、DNS、并发、缓存、安全都能聊；
代码量可控——核心转发 300 行就能跑，后续再叠功能；
结果看得见——浏览器配一下代理就能演示，答辩现场不尴尬。

把“抓包+Wireshark”那一套升级成“自己写个中间人”，既闭环又有深度，老师想不给优秀都难。

2. 技术选型：同步阻塞 vs 异步非阻塞

先放结论：专科毕设直接上异步非阻塞，别纠结同步多线程。

模型	代表API	优点	痛点
同步阻塞	Python socket + threading	思路直观，调试简单	1k 并发就扛不住，GIL 锁到怀疑人生
异步非阻塞	asyncio / Boost.Asio	单线程扛 10k 并发，代码干净	回调/协程思维需适应

场景建议

只会 Python：用asyncio+asyncio.start_server，三天出 demo；
熟悉 C++：上Boost.Asio，顺便秀一把内存管理；
想写 Java：Netty 太重，毕业设计容易写崩，不推荐。

下面所有示例以 Python 3.8+ 为准，Win/Mac/Linux 通用，装完即跑。

3. 核心实现拆解

3.1 整体流程图

3.2 关键模块

请求解析状态机
- 逐行读\r\n，首行拆出METHOD URL VERSION；
- Header 用dict存，遇到Host记录下游地址；
- Body 按Content-Length或Transfer-Encoding读够长度即可。
连接池管理
- 浏览器 ↔ 代理一条连接，代理 ↔ 目标另一条；
- 用asyncio.open_connection懒创建，超时 10 s 回收；
- 毕设级别无需真“池”，字典缓存已够用。
Host 头处理
- 绝对 URL（http://example.com/path）直接解析；
- 相对 URL 靠 Host 头补全；
- 缺 Host 直接回400 Bad Request，防止裸 IP 撞库。
错误统一封装
- 网络异常 →502 Bad Gateway；
- DNS 解析失败 →523 Origin Unreachable；
- 自己写 HTML 模板，答辩时展示友好页面。

4. 300 行能跑的参考实现

目录结构先摆好，方便直接塞论文附录：

mini_proxy/ ├─ proxy.py # 主入口 ├─ parser.py # 请求解析 ├─ logger.py # 脱敏日志 └─ tests/ └─ bench.py # 性能压测

4.1 proxy.py

#!/usr/bin/env python3 import asyncio, re, signal, sys from logger import logger from parser import parse_request, serialize_response # 全局配置 MAX_CONNS = 1000 # 并发连接硬限制 TIMEOUT = 10 BUF_SIZE = 64 * 1024 semaphore = asyncio.Semaphore(MAX_CONNS) async def relay(reader, writer, name): """无脑转发，读到 EOF 自动关""" try: while True: data = await reader.read(BUF_SIZE) if not data: break writer.write(data) await writer.drain() except Exception as e: logger.debug("%s relay abort: %s", name, e) finally: writer.close() await writer.wait_closed() async def handle_client(client_r, client_w): async with semaphore: try: req = await parse_request(client_r) logger.info("accept %s %s", req.method, req.url) # 连接目标 target_r, target_w = await asyncio.wait_for( asyncio.open_connection(req.host, req.port, ssl=False), timeout=TIMEOUT) except Exception as e: logger.error("connect fail: %s", e) client_w.write(serialize_response(502, body=b"Gateway Error")) await client_w.drain() client_w.close() return # 如果客户端发的是 CONNECT，直接隧道 if req.method == "CONNECT": client_w.write(b"HTTP/1.1 200 Connection Established\r\n\r\n") await client_w.drain() await asyncio.gather( relay(client_r, target_w, "client->target"), relay(target_r, client_w, "target->client")) else: # 普通 HTTP，先转发请求头 target_w.write(req.raw_header) await asyncio.gather( relay(client_r, target_w, "client->target"), relay(target_r, client_w, "target->client")) async def main(host="0.0.0.0", port=8080): srv = await asyncio.start_server(handle_client, host, port) logger.info("Serving on %s:%s", host, port) await srv.serve_forever() if __name__ == "__main__": signal.signal(signal.SIGINT, lambda s, f: sys.exit(0)) asyncio.run(main())

4.2 parser.py（节选）

import re, dataclasses, asyncio @dataclasses.dataclass class Request: method: str url: str version: str headers: dict host: str port: int raw_header: bytes async def parse_request(reader): header_lines = [] while True: line = await reader.readline() if line == b"\r\n": break header_lines.append(line) first = header_lines[0].decode().rstrip() method, url, version = first.split(" ", 2) headers = {} for li in header_lines[1:]: k, v = li.decode().split(":", 1) headers[k.strip()] = v.strip() host_port = headers.get("Host", "") if ":" in host_port: host, port = host_port.rsplit(":", 1) port = int(port) else: host, port = host_port, 80 raw_header = b"".join(header_lines) + b"\r\n" return Request(method, url, version, headers, host, port, raw_header)

4.3 logger.py

import logging, re class SensitiveFilter(logging.Filter): def filter(self, record): record.msg = re.sub(r"(Authorization: )\S+", r"\1[REDACTED]", record.msg) return True logger = logging.getLogger("mini_proxy") logger.setLevel(logging.INFO) logger.addHandler(logging.StreamHandler()) logger.addFilter(SensitiveFilter())

代码跑通步骤

安装依赖：Python 3.8+ 即可，无需第三方库；
终端执行python proxy.py，默认监听 8080；
浏览器设 HTTP 代理127.0.0.1:8080，访问任意网站；
看到日志 200 即成功，Ctrl-C 优雅退出。

5. 性能与安全：别只跑通，还得抗揍

5.1 并发连接数限制

用asyncio.Semaphore(MAX_CONNS)硬控，超阈值直接拒连，防止文件描述符爆掉。
答辩时把ulimit -n打印出来，显得你懂系统调优。

5.2 慢速攻击（Slowloris）防御

读头阶段加总超时asyncio.wait_for(..., 5s)，防止恶意客户端 1 byte/s 拖死协程。
body 阶段按Content-Length限速 64 KB/s，超阈值直接 408。

5.3 日志脱敏

用 Filter 正则抹掉Authorization、Cookie字段，防止演示时把账号投屏。
日志落盘按天分割，既省空间又方便老师复查。

5.4 基础访问控制（加分项）

在parse_request后加黑白名单：
- 黑名单返回403 Forbidden；
- 白名单外返回404 Not Found。
配置文件写 JSON，答辩现场随手改，互动感拉满。

6. 生产环境避坑指南（提前写进论文“展望”）

TIME_WAIT 堆积
- 高并发压测后netstat -ant | grep TIME_WAIT一看上万条，别慌；
- 调低net.ipv4.tcp_fin_timeout或打开SO_LINGER杀连接，论文里写“后续可加入连接复用”。
DNS 缓存污染
- 默认asyncio每次现查 DNS，压测线程一多就把系里 DNS 打挂；
- 用aiodns+lru_cache把解析结果缓存 60 s，老师直呼内行。
代理链路编码问题
- 部分老站gzip后忘记给Content-Length，relay会提前关连接；
- 解析Transfer-Encoding: chunked时，把 chunk 大小行全部转发，别自作主张拼接。
HTTPS CONNECT 没实现
- 目前代码只演示 HTTP，论文里写“后续可扩展 TLS 嗅探与证书动态签发”，一句话把坑占住。

7. 5 分钟压测，数据直接进论文

工具：ApacheBench 或 hey（单文件绿色版）

# 开 2 终端 # 1. 启动代理 python proxy.py # 2. 起压测 hey -n 10000 -c 200 -x http://127.0.0.1:8080 http://目标站/

输出示例：

Requests/sec: 5342 Transfer/sec: 28.73 MB

把 QPS、时延 P99、CPU 占用截图插论文，比贴 Wireshark 五颜六色包更吸睛。

8. 可继续叠的功能（写到“展望”能凑字数）

HTTPS CONNECT + 动态证书，实现全流量中间人；
限流模块：令牌桶算法，保护后端小水管；
缓存层：用lru-dict把静态图片缓存 5 分钟，演示断网还能刷出 logo；
Web 后台：Streamlit 快速搭，实时看 QPS、带宽、热点域名；
Docker 化：一行docker run -p 8080:8080直接交镜像，老师免安装。

9. 小结：把“能跑”变成“能讲”

毕业设计不是代码马拉松，而是“讲清动机→展示实现→抛出数据→承认不足”的闭环。
HTTP 代理麻雀虽小，五脏俱全：协议解析、并发模型、安全加固、性能压测、运维坑位，一步不落。
三个月时间，先用两周跑通 300 行核心，再按需叠功能，最后两周整理图表和答辩稿，节奏刚刚好。

祝各位网络专业同学都能把“代理”写成“加分项”，顺顺利利毕业。
代码仓库丢到 Gitee，附 README 和实验数据，明年师弟师妹还能继续 Star，何乐而不为？