文本相似度计算
文本相似度计算工具基于编辑距离算法,输出相似度、编辑距离与差异统计,适用于查重与版本比对。
文本输入
文本 1
文本 2
相似度结果
100.00%
相似度
0
编辑距离
0
最大长度
0
需要操作
相似度100.00%
不同相似几乎相同
文本相似度计算说明
工具简介
文本相似度计算工具基于 Levenshtein 编辑距离算法,量化两段文本在字符层面的差异程度,帮助快速判断文本是否接近或重复。
核心功能
- 实时计算相似度百分比、编辑距离、最大长度与操作次数。
- 支持中英文及混合文本比对,输入后即时更新结果。
- 通过可视化进度条快速判断文本接近程度。
- 适配内容查重、版本修订评估与数据质检流程。
应用场景
- 内容平台去重和重复段落筛查。
- 论文与报告初步查重相似性评估。
- 产品文档版本迭代差异对比。
- 数据清洗时识别近似文本记录。
使用步骤
- 在左侧与右侧输入框分别粘贴两段文本。
- 查看实时更新的相似度、编辑距离和操作次数。
- 结合进度条判断文本相近程度。
- 根据结果进行去重、修改或复核。
计算说明
编辑距离 (Levenshtein距离): 将一段文本转换为另一段文本所需的最少单字符编辑(插入、删除或替换)操作次数。
相似度计算: 相似度 = (1 - 编辑距离 / 最大长度) × 100%
应用场景: 内容去重、查重检测、版本对比、模糊匹配、数据清洗等。
常见示例
文本 1: hello world
文本 2: hello word
相似度: 90.91%
文本 1: 你好世界
文本 2: 你好
相似度: 50.00%
文本 1: abcdef
文本 2: abcdef
相似度: 100.00%
常见问题
编辑距离越大代表什么?
编辑距离越大,说明两段文本差异越大,需要更多字符级操作才能互相转换。
空文本和空文本的相似度是多少?
两段都为空时相似度按 100% 处理,因为不存在差异。
数据会上传服务器吗?
不会,所有计算在浏览器本地完成。