“重复文件查找器加强版”产品特色 - 比较文件内容,结果 100% 准确
返回产品主页 >>>
找出“重复”文件的方法有两种:
1、最简单但对文件查重不太合适的方法:比较文件名、最后修改时间或文件大小,或者其任意组合。2、更适合于文件比较的方法:在二进制层面比较文件是否相同,亦即比较文件内容。不能理解计算机术语的用户,可以理解为把两个文件用“记事本”打开,然后逐字符比较是否一致。我们的产品“重复文件查找器加强版”正是采用此方法。
基于此,进一步分析:
方法 1 可能出现误判,即便文件名称、大小及修改时间相同,也不能 100% 确定其“重复”;还可能出现漏查,比如将“原始文件.docx”拷贝一份,新文件名称为“复制 – 原始文件.docx”,如果将文件名作为判定条件之一,那么这两个文件将不被视为重复项。对于一个专门查找重复文件的软件产品来说,这种方法可谓“简单粗暴”,甚至可以算作未完全实现应有的功能。
再来看方法 2,由于只比较文件内容,所以真正重复的文件一定能被找出,而不管文件名及修改时间是否一致。甚至扩展名不一致(考虑为了安全刻意修改扩展名的情况),只要文件内容相同,也能被找出。
下图是同一文件制作的不同拷贝,均能被我们的产品精准地找出:
图 A:比较文件内容能精确找出重复文件。
注意:
1、方法 2 会从扫描源逐个读取并比较文件内容,所以速度远远不及方法 1。但我们为了向您提供更准确、全面的重复文件结果,仍然采用方法 2 作为核心比较算法。2、请注意以下选项(在主界面按<F7>进入):
图 B:较大文件的比较方法。
为了提高效率,我们默认对达到 16 MB的文件采用抽样比较:首先确保大小完全一致,再每隔若干字节比较一次。您可在此调节抽样比较的阈值甚至直接设为“完整比较”。
立即体验“重复文件查找器加强版”!