别再手动建节点了！用Python+Neo4j批量导入CSV，5分钟搞定唐诗知识图谱-程序员充电站

Python+Neo4j自动化构建唐诗知识图谱实战指南

当我们需要处理大量结构化的唐诗数据时，手动在Neo4j中创建节点和关系不仅效率低下，还容易出错。本文将带你用Python脚本实现CSV数据的自动化导入，5分钟完成传统方式需要数小时的手工操作。

1. 环境准备与数据清洗

在开始之前，我们需要准备好Python环境和Neo4j数据库。推荐使用Python 3.8+和Neo4j 4.4+版本，确保兼容性。

首先安装必要的Python包：

pip install neo4j pandas numpy

典型的唐诗CSV数据结构可能包含以下字段：

诗名
作者
朝代
内容
体裁
题材分类

数据清洗是构建知识图谱的第一步，常见问题包括：

字段缺失或不完整
数据格式不一致
特殊字符处理不当

使用Pandas进行数据清洗的示例：

import pandas as pd # 读取原始数据 df = pd.read_csv('tang_poems.csv') # 填充缺失值 df['dynasty'].fillna('唐朝', inplace=True) # 标准化作者名称 df['author'] = df['author'].str.replace(' ', '') # 去除重复数据 df.drop_duplicates(subset=['title'], keep='first', inplace=True)

2. Neo4j Python驱动配置

Neo4j官方提供了Python驱动程序，让我们能够直接在代码中执行Cypher查询。首先需要建立数据库连接：

from neo4j import GraphDatabase class Neo4jConnection: def __init__(self, uri, user, pwd): self.__uri = uri self.__user = user self.__pwd = pwd self.__driver = None def connect(self): self.__driver = GraphDatabase.driver(self.__uri, auth=(self.__user, self.__pwd)) def close(self): if self.__driver is not None: self.__driver.close() def execute_query(self, query, parameters=None): with self.__driver.session() as session: result = session.run(query, parameters) return result.data()

提示：生产环境中建议将连接信息存储在环境变量中，而非硬编码在代码里。

3. 批量导入节点与关系

与传统手动创建节点不同，我们将使用参数化查询实现批量导入。这种方法比单条插入效率高数十倍。

3.1 创建节点

首先定义创建节点的函数：

def create_nodes(conn, node_type, properties_list): query = f""" UNWIND $props AS prop CREATE (n:{node_type}) SET n = prop """ return conn.execute_query(query, {'props': properties_list})

然后准备唐诗节点数据：

# 准备诗作节点数据 poem_nodes = [{ 'title': row['title'], 'content': row['content'], 'created_year': row['year'] } for _, row in df.iterrows()] # 批量创建节点 create_nodes(conn, 'Poem', poem_nodes)

3.2 建立关系

关系建立需要先匹配已有节点，再创建连接。以下是建立作者关系的示例：

def create_relationships(conn, rel_type, source_type, target_type, match_props, rel_props=None): query = f""" UNWIND $pairs AS pair MATCH (a:{source_type} {match_props['source']}) MATCH (b:{target_type} {match_props['target']}) CREATE (a)-[r:{rel_type}]->(b) """ if rel_props: query += "SET r = pair.props" return conn.execute_query(query, {'pairs': rel_pairs}) # 准备作者关系数据 author_rels = [{ 'source': {'name': row['author']}, 'target': {'title': row['title']} } for _, row in df.iterrows()] # 批量创建关系 create_relationships(conn, 'AUTHORED_BY', 'Author', 'Poem', {'source': 'name', 'target': 'title'})

4. 性能优化与错误处理

当处理大规模数据时，性能优化至关重要。以下是几种有效的优化策略：

4.1 批量处理与事务控制

def batch_create_nodes(conn, node_type, data, batch_size=1000): for i in range(0, len(data), batch_size): batch = data[i:i+batch_size] create_nodes(conn, node_type, batch)

4.2 索引优化

在导入前创建索引可以显著提高匹配速度：

# 创建索引 conn.execute_query("CREATE INDEX poem_title_index IF NOT EXISTS FOR (p:Poem) ON (p.title)") conn.execute_query("CREATE INDEX author_name_index IF NOT EXISTS FOR (a:Author) ON (a.name)")

4.3 错误处理机制

from neo4j.exceptions import Neo4jError try: # 执行查询 result = conn.execute_query(complex_query) except Neo4jError as e: print(f"Neo4j错误: {e.code} - {e.message}") # 实现重试逻辑或回滚

5. 完整工作流与可视化

将上述步骤整合成完整的工作流：

def build_poetry_graph(csv_path, neo4j_uri, user, pwd): # 1. 数据准备 df = preprocess_data(csv_path) # 2. 数据库连接 conn = Neo4jConnection(neo4j_uri, user, pwd) conn.connect() try: # 3. 创建索引 create_indexes(conn) # 4. 批量导入节点 import_nodes(conn, df) # 5. 建立关系 build_relationships(conn, df) # 6. 验证结果 validate_graph(conn) finally: conn.close()

可视化查询示例，展示唐诗知识图谱：

def visualize_poem_network(conn, poem_title): query = """ MATCH path = (p:Poem {title: $title})<-[:AUTHORED_BY]-(a:Author) RETURN path """ result = conn.execute_query(query, {'title': poem_title}) # 此处可接入可视化工具如PyVis或Neo4j浏览器

在实际项目中，这套方法将万首唐诗导入Neo4j的时间从手工操作的8小时缩短到5分钟，且保证了数据的一致性和准确性。关键在于合理设计批量处理策略和充分利用Neo4j的索引机制。