用PHP去除重复图片文件
网络整理 - 08-05
因为整理图标, 所以需要去除重复图片的功能. 通过md5来判断是否重复. 最开始, 我用md5sum工具求md5, 然后再用PHP读取结果去重. 后来一想, 为什么不完全用PHP来做呢? 可以节省大量进程开销. 简单几行代码, 就实现了这个功能.
文件数: 80510, 大小: 452,496,873 字节
只查找不删除的速度:
第一次耗时: 122s
第二次耗时: 44s
第三次耗时: 44s
在查找多次之后, 立即查找并删除的速度:
耗时: 83秒, 删除了54406个文件
<?php
exec("find . -type f", $lines);
$arr = array();
$del = array();
$n = 0;
foreach($lines as $line){
$line = trim($line);
if(!$line){
continue;
}
$n ++;
$md5 = md5_file($line);
if(isset($arr[$md5])){
$del[] = $line;
//echo "$n del $line\n";
unlink("{$line}");
}else{
$arr[$md5] = 1;
}
}
echo "del " . count($del) . " files\n";
//echo join("\n", $del);