luozhouyang
diff --git a/‎.gitignore‎
Lines changed: 4 additions & 0 deletions b/‎.gitignore‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎README.md‎
Lines changed: 461 additions & 0 deletions b/‎README.md‎
Lines changed: 461 additions & 0 deletions
diff --git a/‎similarity/__init__.py‎ b/‎similarity/__init__.py‎
diff --git a/‎similarity/cosine.py‎
Lines changed: 62 additions & 0 deletions b/‎similarity/cosine.py‎
Lines changed: 62 additions & 0 deletions
diff --git a/‎similarity/cosine_test.py‎
Lines changed: 32 additions & 0 deletions b/‎similarity/cosine_test.py‎
Lines changed: 32 additions & 0 deletions
diff --git a/‎similarity/damerau.py‎
Lines changed: 43 additions & 0 deletions b/‎similarity/damerau.py‎
Lines changed: 43 additions & 0 deletions
diff --git a/‎similarity/damerau_test.py‎
Lines changed: 24 additions & 0 deletions b/‎similarity/damerau_test.py‎
Lines changed: 24 additions & 0 deletions
diff --git a/‎similarity/jaccard.py‎
Lines changed: 31 additions & 0 deletions b/‎similarity/jaccard.py‎
Lines changed: 31 additions & 0 deletions
diff --git a/‎similarity/jaccard_test.py‎
Lines changed: 32 additions & 0 deletions b/‎similarity/jaccard_test.py‎
Lines changed: 32 additions & 0 deletions
diff --git a/‎similarity/jarowinkler.py‎
Lines changed: 77 additions & 0 deletions b/‎similarity/jarowinkler.py‎
Lines changed: 77 additions & 0 deletions
@@ -0,0 +1,4 @@
+.idea/
+.vscode/
+__pycache__/
+similarity/__pycache__/
@@ -0,0 +1,62 @@
+import math
+
+from .shingle_based import ShingleBased
+from .string_distance import NormalizedStringDistance
+from .string_similarity import NormalizedStringSimilarity
+
+
+class Cosine(ShingleBased, NormalizedStringDistance, NormalizedStringSimilarity):
+
+    def __init__(self, k):
+        super().__init__(k)
+
+    def distance(self, s0, s1):
+        return 1.0 - self.similarity(s0, s1)
+
+    def similarity(self, s0, s1):
+        if s0 is None:
+            raise TypeError("Argument s0 is NoneType.")
+        if s1 is None:
+            raise TypeError("Argument s1 is NoneType.")
+        if s0 == s1:
+            return 1.0
+        if len(s0) < self.get_k() or len(s1) < self.get_k():
+            return 0.0
+        profile0 = self.get_profile(s0)
+        profile1 = self.get_profile(s1)
+        return self._dot_product(profile0, profile1) / (self._norm(profile0) * self._norm(profile1))
+
+    def similarity_profiles(self, profile0, profile1):
+        return self._dot_product(profile0, profile1) / (self._norm(profile0) * self._norm(profile1))
+
+    @staticmethod
+    def _dot_product(profile0, profile1):
+        small = profile1
+        large = profile0
+        if len(profile0) < len(profile1):
+            small = profile0
+            large = profile1
+        agg = 0.0
+        for k, v in small.items():
+            i = large.get(k)
+            if not i:
+                continue
+            agg += 1.0 * v * i
+        return agg
+
+    @staticmethod
+    def _norm(profile):
+        agg = 0.0
+        for k, v in profile.items():
+            agg += 1.0 * v * v
+        return math.sqrt(agg)
+
+
+if __name__ == "__main__":
+    cosine = Cosine(1)
+    str0 = "上海市宝山区 你好"
+    str1 = "上海浦东新区 你好吗"
+    d = cosine.distance(str0, str1)
+    s = cosine.similarity(str0, str1)
+    print(d)
+    print(s)
@@ -0,0 +1,32 @@
+import unittest
+
+from .cosine import Cosine
+
+
+class TestCosine(unittest.TestCase):
+
+    def test_cosine(self):
+        a = Cosine(1)
+        s0 = ""
+        s1 = ""
+        s2 = "上海"
+        s3 = "上海市"
+        distance_format = "distance: {:.4}\t between {} and {}"
+        similarity_format = "similarity: {:.4}\t between {} and {}"
+        print(distance_format.format(str(a.distance(s0, s1)), s0, s1))
+        print(distance_format.format(str(a.distance(s0, s2)), s0, s2))
+        print(distance_format.format(str(a.distance(s0, s3)), s0, s3))
+        print(distance_format.format(str(a.distance(s1, s2)), s1, s2))
+        print(distance_format.format(str(a.distance(s1, s3)), s1, s3))
+        print(distance_format.format(str(a.distance(s2, s3)), s2, s3))
+
+        print(similarity_format.format(str(a.similarity(s0, s1)), s0, s1))
+        print(similarity_format.format(str(a.similarity(s0, s2)), s0, s2))
+        print(similarity_format.format(str(a.similarity(s0, s3)), s0, s3))
+        print(similarity_format.format(str(a.similarity(s1, s2)), s1, s2))
+        print(similarity_format.format(str(a.similarity(s1, s3)), s1, s3))
+        print(similarity_format.format(str(a.similarity(s2, s3)), s2, s3))
+
+
+if __name__ == "__main__":
+    unittest.main()
@@ -0,0 +1,43 @@
+from .string_distance import MetricStringDistance
+import numpy as np
+
+
+class Damerau(MetricStringDistance):
+
+    def distance(self, s0, s1):
+        if s0 is None:
+            raise TypeError("Argument s0 is NoneType.")
+        if s1 is None:
+            raise TypeError("Argument s1 is NoneType.")
+        if s0 == s1:
+            return 0.0
+        inf = int(len(s0) + len(s1))
+        da = dict()
+        for i in range(len(s0)):
+            da[s0[i]] = str(0)
+        for i in range(len(s1)):
+            da[s1[i]] = str(0)
+        h = np.zeros((len(s0) + 2, len(s1) + 2))
+        for i in range(len(s0) + 1):
+            h[i + 1][0] = inf
+            h[i + 1][1] = i
+        for j in range(len(s1) + 1):
+            h[0][j + 1] = inf
+            h[1][j + 1] = j
+        for i in range(1, len(s0) + 1):
+            db = 0
+            for j in range(1, len(s1) + 1):
+                i1 = int(da[s1[j - 1]])
+                j1 = db
+
+                cost = 1
+                if s0[i - 1] == s1[j - 1]:
+                    cost = 0
+                    db = j
+                h[i + 1][j + 1] = min(h[i][j] + cost,
+                                      h[i + 1][j] + 1,
+                                      h[i][j + 1] + 1,
+                                      h[i1][j1] + (i - i1 - 1) + 1 + (j - j1 - 1))
+            da[s0[i - 1]] = str(i)
+
+        return h[len(s0) + 1][len(s1) + 1]
@@ -0,0 +1,24 @@
+import unittest
+
+from .damerau import Damerau
+
+
+class TestDamerau(unittest.TestCase):
+
+    def test_damerau(self):
+        a = Damerau()
+        s0 = ""
+        s1 = ""
+        s2 = "上海"
+        s3 = "上海市"
+        distance_format = "distance: {:.4}\t between {} and {}"
+        print(distance_format.format(str(a.distance(s0, s1)), s0, s1))
+        print(distance_format.format(str(a.distance(s0, s2)), s0, s2))
+        print(distance_format.format(str(a.distance(s0, s3)), s0, s3))
+        print(distance_format.format(str(a.distance(s1, s2)), s1, s2))
+        print(distance_format.format(str(a.distance(s1, s3)), s1, s3))
+        print(distance_format.format(str(a.distance(s2, s3)), s2, s3))
+
+
+if __name__ == "__main__":
+    unittest.main()
@@ -0,0 +1,31 @@
+from .shingle_based import ShingleBased
+from .string_distance import NormalizedStringDistance, MetricStringDistance
+from .string_similarity import NormalizedStringSimilarity
+
+
+class Jaccard(ShingleBased, MetricStringDistance, NormalizedStringDistance, NormalizedStringSimilarity):
+
+    def __init__(self, k):
+        super().__init__(k)
+
+    def distance(self, s0, s1):
+        1.0 - self.similarity(s0, s1)
+
+    def similarity(self, s0, s1):
+        if s0 is None:
+            raise TypeError("Argument s0 is NoneType.")
+        if s1 is None:
+            raise TypeError("Argument s1 is NoneType.")
+        if s0 == s1:
+            return 1.0
+        if len(s0) < self.get_k() or len(s1) < self.get_k():
+            return 0.0
+        profile0 = self.get_profile(s0)
+        profile1 = self.get_profile(s1)
+        union = set()
+        for ite in profile0.keys():
+            union.add(ite)
+        for ite in profile1.keys():
+            union.add(ite)
+        inter = int(len(profile0.keys()) + len(profile1.keys()) - len(union))
+        return 1.0 * inter / len(union)
@@ -0,0 +1,32 @@
+import unittest
+
+from .jaccard import Jaccard
+
+
+class TestJaccard(unittest.TestCase):
+
+    def test_jaccard(self):
+        a = Jaccard(1)
+        s0 = ""
+        s1 = ""
+        s2 = "上海"
+        s3 = "上海市"
+        distance_format = "distance: {:.4}\t between {} and {}"
+        similarity_format = "similarity: {:.4}\t between {} and {}"
+        print(distance_format.format(str(a.distance(s0, s1)), s0, s1))
+        print(distance_format.format(str(a.distance(s0, s2)), s0, s2))
+        print(distance_format.format(str(a.distance(s0, s3)), s0, s3))
+        print(distance_format.format(str(a.distance(s1, s2)), s1, s2))
+        print(distance_format.format(str(a.distance(s1, s3)), s1, s3))
+        print(distance_format.format(str(a.distance(s2, s3)), s2, s3))
+
+        print(similarity_format.format(str(a.similarity(s0, s1)), s0, s1))
+        print(similarity_format.format(str(a.similarity(s0, s2)), s0, s2))
+        print(similarity_format.format(str(a.similarity(s0, s3)), s0, s3))
+        print(similarity_format.format(str(a.similarity(s1, s2)), s1, s2))
+        print(similarity_format.format(str(a.similarity(s1, s3)), s1, s3))
+        print(similarity_format.format(str(a.similarity(s2, s3)), s2, s3))
+
+
+if __name__ == "__main__":
+    unittest.main()
@@ -0,0 +1,77 @@
+from .string_distance import NormalizedStringDistance
+from .string_similarity import NormalizedStringSimilarity
+
+
+class JaroWinkler(NormalizedStringSimilarity, NormalizedStringDistance):
+
+    def __init__(self, threshold=0.7):
+        self.threshold = threshold
+        self.three = 3
+        self.jw_coef = 0.1
+
+    def get_threshold(self):
+        return self.threshold
+
+    def similarity(self, s0, s1):
+        if s0 is None:
+            raise TypeError("Argument s0 is NoneType.")
+        if s1 is None:
+            raise TypeError("Argument s1 is NoneType.")
+        if s0 == s1:
+            return 1.0
+        mtp = self.matches(s0, s1)
+        m = mtp[0]
+        if m == 0:
+            return 0.0
+        j = (m / len(s0) + m / len(s1) + (m - mtp[1]) / m) / self.three
+        jw = j
+        if j > self.get_threshold():
+            jw = j + min(self.jw_coef, 1.0 / mtp[self.three]) * mtp[2] * (1 - j)
+        return jw
+
+    def distance(self, s0, s1):
+        return 1.0 - self.similarity(s0, s1)
+
+    @staticmethod
+    def matches(s0, s1):
+        if len(s0) > len(s1):
+            max_str = s0
+            min_str = s1
+        else:
+            max_str = s1
+            min_str = s0
+        ran = int(max(len(max_str) / 2 - 1, 0))
+        match_indexes = [-1] * len(min_str)
+        match_flags = [False] * len(max_str)
+        matches = 0
+        for mi in range(len(min_str)):
+            c1 = min_str[mi]
+            for xi in range(max(mi - ran, 0), min(mi + ran + 1, len(max_str))):
+                if not match_flags[xi] and c1 == max_str[xi]:
+                    match_indexes[mi] = xi
+                    match_flags[xi] = True
+                    matches += 1
+                    break
+
+        ms0, ms1 = [0] * matches, [0] * matches
+        si = 0
+        for i in range(len(min_str)):
+            if match_indexes[i] != -1:
+                ms0[si] = min_str[i]
+                si += 1
+        si = 0
+        for j in range(len(max_str)):
+            if match_flags[j]:
+                ms1[si] = max_str[j]
+                si += 1
+        transpositions = 0
+        for mi in range(len(ms0)):
+            if ms0[mi] != ms1[mi]:
+                transpositions += 1
+        prefix = 0
+        for mi in range(len(min_str)):
+            if s0[mi] == s1[mi]:
+                prefix += 1
+            else:
+                break
+        return [matches, int(transpositions / 2), prefix, len(max_str)]