070、Python自然语言处理(NLP)基础:从乱码到词向量的实战踩坑记
昨天帮实习生调试一个文本处理脚本,看到他的代码我差点笑出声——用正则表达式硬拆中文句子,结果“上海市长江大桥”被切成了“上海/市长/江大桥”。这让我想起自己刚接触NLP时踩的那些坑,今天咱们就聊聊怎么避开这些陷阱。
文本清洗的暗礁
直接上代码看看典型问题:
# 错误示范:用空格切中文text="我爱自然语言处理"words=text.split()# 得到['我爱自然语言处理'],完全没分开!# 正确姿势:用jieba分词importjieba seg_list=