文本相似度Levenshtein算法原理(转载) - 计算机软件技术分享--赠人玫瑰,手遗余香（QQ群516569942） - ITeye博客

`

gaojingsong

浏览: 1155182 次
性别:
来自: 深圳

最近访客更多访客>>

xckouy

lengyun3566

Z865785437029

youlxb2008

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

gaojingsong： jstl1point0 写道高级版本JDK可以直接安装不用配置 ...
【win7配置jdk 环境变量】
jstl1point0：高级版本JDK可以直接安装不用配置了
【win7配置jdk 环境变量】
hdd901002：光说明错误在哪里有什么用，解决方法啊。。。我也碰到了，一条jo ...
Mycat源码解读--错误之【can't find table define in schema 】
masuweng：
【JAVA之图片水印】
masuweng：
【JAVA之多线程下载文件实现】

文本相似度Levenshtein算法原理(转载)

博客分类：

自然语言处理

阅读更多

Levenshtein算法原理

1) str1或str2的长度为0返回另一个字符串的长度。 if(str1.length==0) return str2.length; if(str2.length==0) return str1.length;

2)初始化(n+1)*(m+1)的矩阵d，并让第一行和列的值从0开始增长。

3)扫描两字符串（n*m级的），如果：str1 == str2[j]，用temp记录它，为0。否则temp记为1。然后在矩阵d[i,j]赋于d[i-1,j]+1 、d[i,j-1]+1、d[i-1,j-1]+temp三者的最小值。

4)扫描完后，返回矩阵的最后一个值d[n][m]即是它们的距离。

Levenshtein计算相似度公式：1-它们的距离/两个字符串长度的最大值。

Levenshtein应用　　DNA分析/拼字检查/语音辨识/抄袭侦测

推导过程

为了直观表现，我将两个字符串分别写到行和列中，实际计算中不需要。我们用字符串“ivan1”和“ivan2”举例来看看矩阵中值的状况：

1、第一行和第一列的值从0开始增长

最后得到它们的距离=1

相似度：1-1/Math.Max(“ivan1”.length,“ivan2”.length) =0.8

本文转自百度和网页 http://www.cnblogs.com/shihuajie/p/5772173.html 的作者无关，不对其内容负责。百度快照谨为网络故障时之索引，不代表被搜索网站的即时页面。

查看图片附件

0
顶

1
踩

分享到：

文本相似度余弦相似度算法原理 | 文本相似度之Levenshtein算法

2016-12-28 22:11
浏览 911
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

余弦相似度算法文本相似度算法的对比及python实现: 余弦相似度算法文本相似度算法的对比及python实现五种常见的相似度算法：余弦相似度（cosine_similarity）、jaccard相似度、编辑距离（Levenshtein）、MinHash、SimHash + 海明距离。

delphi计算两个字符串相似度源码 Levenshtein算法版: Levenshtein算法python也是用的这个对比字符串相似度的，还不错

Levenshtein.rar 文本相似度比较: c#文本相似度对比，亲测可用，可学习使用。主要用于对比出两个字符串中相似度能达到多少，项目中使用过已经经过优化

levenshtein算法的matlab实现: matlab实现应用levenshtein算法对两组字符串CH1，CH2相似度的识别，得到两组字符串的相似度，leventshtein算法是有效的模式识别算法，在结构模式识别中应用广泛。

DELPHI Levenshtein算法字符串相似度计算（附源码）: 比较两个字符串的相似度，利用Levenshein算法计算出两个字符串的最小编辑距离，根据最小编辑距离得出相似度，例如：字符串1:1234 字符串2:51234，则他们的相似度为：4/5。

字符串相似度算法 levenshtein distance 编辑距离算法: NULL 博文链接：https://biansutao.iteye.com/blog/326008

levenshtein相似度算法: 广泛使用的计算字符串之间的相似度算法

Python-Levenshtein快速计算编辑距离以及字符串的相似度: Levenshtein：快速计算编辑距离以及字符串的相似度

两个字符串的相似度算法实现——编辑距离之Levenshtein距离: 两个字符串的相似度算法实现——编辑距离之Levenshtein距离

线性时间和常数空间中的通用 Levenshtein算法和 k 有界 Levenshtein 距离_C语言_代码_下载: 通用 Levenshtein 算法 k 有界 Levenshtein 距离算法（线性时间，恒定空间）。信息：这是您只关心小于或等于给定k的距离（例如，测试两个单词之间的拼写差异是否最大为 1）。在这种情况下，算法运行得更快，同时...

Go-levenshtein-这是一个Go实现计算Levenshtein距离算法: levenshtein - 这是一个Go实现计算Levenshtein距离算法

Rust中的 Levenshtein算法_rust_代码_下载: 编辑距离算法作为 Rust 库

C#，字符串相似度的莱文斯坦距离（Levenshtein Distance）算法与源代码: C#，字符串相似度的莱文斯坦距离（Levenshtein Distance）算法与源代码莱文斯坦距离（Levenshtein Distance）用于衡量两个字符串之间的相似度。莱文斯坦距离以俄国科学家（Vladimir I. Levenshtein）命名，他于...

damerau-levenshtein:使用Damerau-Levenshtein距离获取文本相似度: 获取与Damerau-Levenshtein距离的文本相似度。要求 PHP 7.1.0或更高版本。安装 composer require oefenweb/damerau-levenshtein 用法 $ pattern = 'foo bar' ; $ string = 'fuu baz' ; $ damerauLevenshtein = ...

关于文本相似性算法的解读: 在目前这个信息过载的时代，文本的相似度计算应用前景还是比较广泛的，它可以让人们过滤掉很多相似的新闻，比如在搜索引擎上，相似度太高的页面，只需要展示一个就行了。考试的时候，可以用这个来防作弊，同样的，...

用 Levenshtein 距离算法最快的 JS 实现来测量两个字符串之间的差异_JavaScript_代码_相关文件_下载: 使用Levenshtein 距离算法测量两个字符串之间的差异更多详情、使用方法，请下载后阅读README.md文件

damerau-levenshtein:使用Damerau-Levenshtein算法计算编辑距离: 该gem实现了纯Levenshtein算法，即Damerau的改进算法（其中2个字符换位算作1个编辑距离）。它还包括Boermer＆Rees 2008对Damerau算法的修改，其中也考虑了大于1个字符块的转置。 require "damerau-levenshtein...

基于Python实现的多种相似度计算、匹配搜索算法，支持文本、图像，开箱即用，相似度计算、语义匹配搜索工具包: 文本相似度计算（文本匹配）余弦相似（Cosine Similarity）：两向量求余弦点积（Dot Product）：两向量归一化后求内积汉明距离（Hamming Distance），编辑距离（Levenshtein Distance），欧氏距离（Euclidean ...

python文本数据相似度的度量: 编辑距离，又称为Levenshtein距离，是用于计算一个字符串转换为另一个字符串时，插入、删除和替换的次数。例如，将’dad’转换为’bad’需要一次替换操作，编辑距离为1。 nltk.metrics.distance.edit_distance函数...

Global site tag (gtag.js) - Google Analytics