SQL多条件模糊查询解决方案(类似百度搜索)

SQL多条件模糊查询解决方案(类似百度搜索)

2024-11-10 22:19

参考博文：

SQL LIKE语句多条件贪婪匹配算法

SQL LIKE语句多条件贪婪加权匹配算法(改进版)

SQL LIKE语句多条件贪婪加权匹配(新增必要词指定)

前言：

算法的基本特性在前几篇博客中已经做了详细的说明，经过不断的改进优化，到归仓的时候了，也就是说，该算法告一段落，不再更新。

作为最终的解决方案，简要的总结一下算法特性，以方便读者参阅。

l 目的：主要用于多条件模糊匹配。

l 贪婪特性：返回满足条件尽可能多的记录。

l 权重特性：为关键词分配权重，代表关键词的重要性，在不破坏贪婪特性的前提下，返回权重高的记录。

l 必要关键词指定特性：在不破坏贪婪特性和权重特性的前提下，返回的结果中必须包含指定的关键词。

l 典型应用：问-答系统，例如百度提问、京东商品咨询。

经过分析，在最终的解决方案中，提供两个版本的算法，已经封装成存储过程和函数，直接导入数据库即可。

普通版本：

l 描述：基于SQL的LIKE语句实现，使用简单，但受限于LIKE语句，不适合超大数据量处理。指定必要词会加快处理速度。

l 使用范围：万级别的数据量，数据量超过1万条，将导致运行缓慢。

l 使用方法：直接在查询分析器中运行脚本导入数据库即可。

l 调用示例：execute proc_Common_SuperLike'id','t_test','content','20','|','[i]|o|c'

l 参数说明：id表的主键字段名称。t_test表名。content匹配内容字段名称。20选出20个记录（从顶至下匹配度越来越低）。|关键字的分隔符号。[i]|o|c一共有i，o，c三个关键字，通过|分隔，其中i是必要词。

大数据量版本：

l 描述：基于SQL的全文索引实现，使用较为复杂，但执行速度极快，适合处理大数据量。指定必要词会降低处理速度。

l 使用范围：千万级别的数据量，i3一代笔记本处理器，查询1千万条记录仅需2秒。

l 使用方法：在查询分析器中运行脚本导入数据库，再为要查询的表创建全文索引，索引字段设置为要查询的字段。

l 调用示例：execute proc_Common_SuperLike'id','t_test','content','20','|','[i]|o|c'

附-SQL数据库表全文索引创建指南：

--开启全文索引

sp_fulltext_database enable

--创建索引目录(创建出来是一个目录，用来放索引文件)

CREATE FULLTEXT CATALOG 索引目录名称 --例如myFullText

--创建全文索引

CREATE FULLTEXT INDEX ON 表名(字段名) --为哪个表的哪个字段创建全文索引，例如t_test(content)

KEY INDEX 主键索引名称 ON 索引目录名称 --注意是主键索引名称，而不是主键字段名称！例如，PK__t_test__3213E83F0EA330E9；指定全文索引目录，即放在哪个目录下，例如myFullText

注意：如果在创建数据库表全文索引之前，数据库表中已经有大量记录，那么创建全文索引是需要时间的，因此创建完全文索引后马上使用可能查不到数据。