转载

在Python中用小波分析图像的哈希值

本文为数盟原创译文，转载请注明出处为数盟社区。

作者：DMITRY PETROV

过去的几个周末，Kaggle的这个项目让我玩得乐此不疲Avito Duplicate Ads Detection problem。这个机器学习的问题，除了结构化的数据集之外，还包括超过1000万个图像。在这个项目的竞争中，许多玩家使用图像的哈希值而不是优化模型建立过程中的实际图像。

我发现有趣的是 – 最形象散列的实施采用了标准的离散余弦变换（CDT）。我曾经从事过多年的图像工作，我记得离散小波变换（DWT）可能会提供更好的结果的图像。我无法找到任何Python实现DWT基于图像的散列，所以我实现了一个并上传到imagehash库。这种变化在GitHub上的和新版本的包中实现。在本文中，我将简明扼要的介绍它是如何工作的。

1. Imagehash Python库

我发现的最简单有效的库是来自于约翰内斯布赫尔的imagehash库。可以在库中实现多种图像散列：aHash，pHash，dHash。所有三种方法的缩放图像转换成灰度级8×8的图像首位。然后该库执行用于每个64像素的一些计算并分配一个二进制的1或0的值。这些64bit值形成算法的输出。该bit计算方法是不同的：

aHash – 平均散列，对于每个像素输出1，如果该像素是大于或等于平均值，否则为0。

pHash – 感知哈希，不同于aHash，但首先它确实是离散余弦变换和频域的作品。

dHash – 梯度散列，计算每个像素的差值，并与平均差异的差异进行比较。

* wHash – 小波散列，几天前我把它添加到库里。它的工作原理在频域中作为pHash但它使用DWT代替DCT变换。

您可以查看本文的哈希值的更详细的说明。

下面这串代码展示了如何使用这个库

import PIL

from PIL import Image

import imagehash

hash1 = imagehash.phash(Image.open(‘test1.jpg’))

print(hash1)

> d879f8f89b1bbf

hash2 = imagehash.phash(Image.open(‘test2.jpg’))

print(hash2)

> 99636ab4aecc4569

hash1 == hash2

> False

hash1 – hash2

42

从示例代码中的看出两个图像绝对不是相同的。64个bit中有42个是不同的。类似的图像差异将达到6-8bit。

2.计算图像的哈希值

对于普通的照片，基于频率一样pHash方法通常给出更好的结果，因为在频域对图像变换像更稳定：

JPG压缩

色彩模式更改或应用图像过滤器

大小缩放

甚至一些细微的图像编辑：裁剪图像的一部分，标志着由水印图像，添加修改图像的文本。

例如，让我们来看一看图像和相同图像的转换版本。这将是一个非常受欢迎的Lenna图像。许多图像处理研究使用这张图片。我还记得自我的学生时代起这幅画非常有名，约10年以前，当我做一些图像研究的时候。

在Python中用小波分析图像的哈希值

Lenna.png. Original image. Size 512×512.

让我们在图像上的一些基本的转换和比较哈希值。首先，我们将推出尺寸变化从512×512到400×400像素。然后我们将改变颜色的模式，然后压缩为JPEG，作为最终步骤。

在Python中用小波分析图像的哈希值

Lenna1.jpg. Color schema and image size were changed. JPG compressed. Size 400×400

import PIL

from PIL import Image

import imagehash

lenna = PIL.Image.open(‘lenna.png’)

lenna1 = PIL.Image.open(‘lenna1.jpg’)

h = imagehash.phash(lenna)

h1 = imagehash.phash(lenna1)

h-h1

> 0

哈…不错！即使经过压缩，调整大小和颜色变化的图像中没有差异哈希值。

让我们将更多的转换到lenna1.jpg图像（不是原单）：

仅取画面的中央部

添加文字

再压缩

在Python中用小波分析图像的哈希值

Lenna2.jpg. More image transformations. Size 317×360

我分享所有的三张图片：

lenna.png，lenna1.JPG，lenna2.jpg。

lenna2 = PIL.Image.open(‘lenna2.jpg’)

h2 = imagehash.phash(lenna2)

h – h2

> 20

(h – h2)/len(h.hash)**2

> 0.3125

好吧。现在我们可以看到散差为20，即每哈希位31.2％。第二个指标是要好得多，因为散列大小的变化不同的哈希值。

aHash带来不同的结果。即使lenna1.jpg的简单改造显示1.6％的哈希差异。更明显的lenna2.jpg给出29.7％的差异。

a = imagehash.average_hash(lenna)

a1 = imagehash.average_hash(lenna1)

a2 = imagehash.average_hash(lenna2)

a – a1

(a – a1)/len(a.hash)**2

> 0.015625

(a – a2)/len(a.hash)**2

> 0.296875

3.小波哈希

离散小波变换（DWT）是频表示的另一种形式。流行的DCT和傅立叶变换使用余弦函数作为基础的一组罪过/：罪（x）时，罪（2×），罪（3倍），等等。与此相反，DWT使用一个单一的功能作为基础，但在不同的形式：缩放和移动。基础功能是可以改变的，这就是为什么我们可以有Haar小波，Daubechie-4小波等，这尺度效应给我们很大“时频表示”的时候，低频部分类似于原始信号。

这里有一个极好的为小波而备Python库 – pywt。我用这个库来实现的imagehash库whash（）方法。默认情况下whash（）计算用哈尔变换8×8的哈希值。另外，该方法删除最低哈尔频率LL（最大）。最低频率由来自仅一个数据点/像素，这点代表了图像的对比度，而不是对散列如此有用。

wHash Python代码如下：

w = imagehash.whash(lenna)

w1 = imagehash.whash(lenna1)

w2 = imagehash.whash(lenna2)

(w – w1)/len(w.hash)**2