Python文本去重方案_高效去重实现方法

20次阅读

python 文本去重需先明确粒度：按行（最快，用 dict.fromkeys 保序）、按句子（需清洗后切分）、按语义（用 tf-idf 或 sentence-bert 计算相似度）；预处理须统一编码、清理不可见字符、过滤空行。

Python 文本去重方案_高效去重实现方法

Python 文本去重，核心在于明确“去重粒度”——是按行、按句子、按段落，还是按语义？不同场景需不同策略，没有万能解法，但有高性价比方案。

按行去重（最常用、最快）

适用于日志、列表、CSV 行数据等结构化文本。利用 set 去重并保持原始顺序（Python 3.7+ dict 有序）：

读取文件时用 dict.fromkeys(lines)，自动去重且保序
避免直接用 list(set(lines))，会打乱顺序
注意行尾换行符：建议先 .rstrip(‘n’) 再处理，避免 ‘abc’ 和 ‘abcn’ 被视为不同

按句子 / 分句去重（兼顾可读性）

适合新闻、报告等自然语言文本。先用 nltk.sent_tokenize 或正则（如 r'[。！？；]+ ‘）切分，再清洗（去空格、统一标点、忽略大小写）后去重：

清洗示例：s.strip().replace(‘ ‘, ”).lower()
对中文，慎用简单正则；推荐 hanlp 或 pkuseg 辅助断句更准
保留原始句子格式（如首字母大写、末尾标点），仅清洗比对用的键

语义去重（去“意思重复”，非字面重复）

适用于摘要、评论、用户反馈等需理解含义的场景。不依赖完全匹配，而是计算文本相似度：

立即学习 “Python 免费学习笔记（深入）”；

轻量级：用 TfidfVectorizer + cosine_similarity，适合千级文本
进阶方案：Sentence-BERT（如 all-MiniLM-L6-v2） 编码后算余弦距离，阈值设 0.85~0.95 可滤掉高度近义句
注意：语义去重开销大，务必先做预过滤（如长度太短、纯符号行直接剔除）

去重后保留关键信息（实用技巧）

单纯删重可能丢失上下文或权重。建议：

记录每条文本出现次数，用于后续加权或分析
合并重复项时附带原始位置（如文件名、行号），便于溯源
对长文本，可先提取关键词（jieba.analyse 或 KeyBERT），用关键词集合代替全文参与去重

不复杂但容易忽略：去重前务必统一编码（UTF-8）、处理不可见字符（ufeff、xa0）、过滤空行和空白行。这些细节常导致“明明一样却没去重”。

发表于：后端开发

2026-02-28

# bert # python

复制链接

Python yarl.URL 的不可变性优势

标题：Go 语言批量写入 Redis 2 亿键的高性能实践与内存优化指南

C++怎么使用optional_C++可选值处理教程【安全】

php如何生成小程序短链接_php调用短链生成接口【教程】

Linux 磁盘扩容操作完整流程

如何将 HTML 结构解析为文本与标记分离的嵌套对象数组

text=ZqhQzanResources