工具简介
文本相似度计算工具基于 Levenshtein 编辑距离算法,量化两段文本在字符层面的差异程度,帮助快速判断文本是否接近或重复。
核心功能
- 实时计算相似度百分比、编辑距离、最大长度与操作次数。
- 支持中英文及混合文本比对,输入后即时更新结果。
- 通过可视化进度条快速判断文本接近程度。
- 适配内容查重、版本修订评估与数据质检流程。
应用场景
- 内容平台去重和重复段落筛查。
- 论文与报告初步查重相似性评估。
- 产品文档版本迭代差异对比。
- 数据清洗时识别近似文本记录。
使用步骤
- 在左侧与右侧输入框分别粘贴两段文本。
- 查看实时更新的相似度、编辑距离和操作次数。
- 结合进度条判断文本相近程度。
- 根据结果进行去重、修改或复核。
计算说明
编辑距离 (Levenshtein距离)
将一段文本转换为另一段文本所需的最少单字符编辑(插入、删除或替换)操作次数。
相似度计算
相似度 = (1 - 编辑距离 / 最大长度) × 100%
应用场景
内容去重、查重检测、版本对比、模糊匹配、数据清洗等。
常见问题
编辑距离越大代表什么?
编辑距离越大,说明两段文本差异越大,需要更多字符级操作才能互相转换。
空文本和空文本的相似度是多少?
两段都为空时相似度按 100% 处理,因为不存在差异。
数据会上传服务器吗?
不会,所有计算在浏览器本地完成。