推广 热搜: 行业  机械  设备    经纪  教师  系统  参数    蒸汽 

5.2 为BM25配置高级的settings

   日期:2024-11-04     移动:http://dgaty.xhstdz.com/mobile/quote/339.html

现在,讲述一个真实的故事!
故事一定是伴随着赵忠祥老师的声音开始的,雨季就要来临了,又到了动物们发情的季节了...
还记得,之前发生的作家六六吐槽xx的事情吗?对了,有图有真相!上图上图:

5.2 为BM25配置高级的settings

身为吃瓜群众,要从专业的角度来分析,就事论事哈:
就搜索结果本身而言,xx返回了正确的结果(是的,人家已经调整了,现在搜没问题!)。因为返回的结果中,都包含了搜索的关键字。而我们从逻辑上来看,这他娘的一堆广告算是咋回事!这个吐槽是从用户的角度出发的。很显然,返回的结果中,尤其是前几条,有时甚至是前几页,都跟我们想要的结果相差深远!
进一步说,仅仅以二元的方式来考虑文档和查询的匹配可能是有意义的,也就是百度搜索引擎返回了二元的匹配结果:是的,找到了,不,老娘没找到!虽然返回了结果,其中也包含了我们想要的结果,即便你要在大堆的广告中找正确的结果实属不易,但就像大家都习惯了广告中插播电视剧一样,习惯就好嘛!xx从x的角度出发,为广告的词条增加权重,至于那个真正的结果,我擦,你也没给我钱........
而需要xx才能访问的xx浏览器,在正确的给用户返回二元结果之前,更多的考虑文档的相关性(relevancy),因为就某个结果而言,如果A文档要比B文档更和结果相关,那么A文档在结果中就要比B文档靠前,再加上以其他的优化,最终将所有结果返回,而用户最期待的那条结果很可能排在最高位,这岂不美哉?
确定文档和查询有多么相关的过程被称为打分(scoring)

和的打分机制是一个公式。将查询作为输入,使用不同的手段来确定每一篇文档的得分,将每一个因素最后通过公式综合起来,返回该文档的最终得分。这个综合考量的过程,就是我们希望相关的文档被优先返回的考量过程。在和中这种相关性称为打分。
在开始计算得分之前,使用了被搜索词条的频率和它有多常见来影响得分,从两个方面理解:

  • 一个词条在某篇文档中出现的次数越多,该文档就越相关。
  • 一个词条如果在不同的文档中出现的次数越多,它就越不相关!
  • 我们称之为,是词频(term frequency),而是逆文档频率(inverse document frequency)。

    考虑一篇文档得分的首要方式,是查看一个词条在文档中出现的次数,比如某篇文章围绕的打分展开的,那么文章中肯定会多次出现相关字眼,当查询时,我们认为该篇文档更符合,所以,这篇文档的得分会更高。
    闲的蛋疼的可以搜一下相关的关键词(es,得分、打分)之类的试试。

    相对于词频,逆文档频率稍显复杂,如果一个词条在索引中的不同文档中出现的次数越多,那么它就越不重要。
    来个例子,示例地址:

    假如索引中,有上述3篇文档:

  • 词条的文档频率是,因为它出现在2篇文档中,文档的逆源自得分乘以,是该词条的文档频率,这就意味着,由于词条拥有更高的文档频率,所以,它的权重会降低。
  • 词条的文档频率是,它在3篇文档中都出现了,注意:尽管在后两篇文档出都出现两次,但是它的词频是还是,因为,逆文档词频只检查词条是否出现在某篇文档中,而不检查它在这篇文档中出现了多少次,那是词频该干的事儿
  • 逆文档词频是一个重要的因素,用来平衡词条的词频。比如我们搜索。单词几乎出现在所有的文档中(中文中比如),如果这个鬼东西要不被均衡一下,那么的频率将完全淹没。所以,逆文档词频就有效的均衡了这个常见词的相关性影响。以达到实际的相关性得分将会对查询的词条有一个更准确地描述。
    当词频和逆文档词频计算完成。就可以使用公式来计算文档的得分了。

    之前的讨论默认评分公式被称为,一个基于词频和逆文档词频的公式。实用评分公式如下:

    你以为我会着重介绍这个该死的公式?!
    我只能说,词条的词频越高,得分越高;相似地,索引中词条越罕见,逆文档频率越高,其中再加商调和因子和查询标准化,调和因子考虑了搜索过多少文档以及发现了多少词条;查询标准化,是试图让不同的查询结果具有可比性,这显然.....很困难。
    我们称这种默认的打分方法是和向量空间模型(vector space model)的结合。

    除了结合向量空间模型的实用评分模式,是和最为主流的评分机制,但这并不是唯一的,除了这种实用模型之外,其他的模型包括:

  • Okapi BM25。
  • 随机性分歧(Divergence from randomness),即DFR相似度。
  • LM Dirichlet相似度。
  • LM Jelinek Mercer相似度。
  • 这里简要的介绍几种主要设置,即、和:

  • k1和b是数值的设置,用于调整得分是如何计算的。
  • k1控制对于得分而言词频(TF)的重要性。
  • b是介于之间的数值,它控制了文档篇幅对于得分的影响程度。
  • 默认情况下,设置为,而则被设置为
  • 的设置用于告诉,在某个字段中,多少个分词出现在同一位置,是否应该影响长度的标准化,默认值是。
  • (是不是跟pm2.5好像!!!)是一种基于概率的打分框架。我们来简要的配置一下:

    上例是通过参数来指定打分模型。至于查询,还是当数据量比较大的时候,多试几次,比较容易发现不同之处。

    如果我们要使用某种特定的打分模型,并且希望应用到全局,那么就在配置文件中加入:

    是一个用来修改文档相关性的程序。有两种类型:

  • 索引的时候,比如我们在定义mappings的时候。
  • 查询一篇文档的时候。
  • 以上两种方式都可以提升一个篇文档的得分。需要注意的是:在索引期间修改的文档boosting是存储在索引中的,要想修改boosting必须重新索引该篇文档

    啥也不说了,都在酒里!上代码:

    一劳永逸是没错,但一般不推荐这么玩。

    原因之一是因为一旦映射建立完成,那么所有字段都会自动拥有一个值。要想修改这个值,那就必须重新索引文档。
    另一个原因是,值是以降低精度的数值存储在内部的索引结构中。只有一个字节用于存储浮点型数值(存不下就损失精度了),所以,计算文档的最终得分时可能会损失精度。
    最后,是应用与词条的。因此,再被的字段中如果匹配上了多个词条,就意味着计算多次的,这将会进一步增加字段的权重,可能会影响最终的文档得分。
    现在我们再来介绍另一种方式。

    在中,几乎所有的查询类型都支持,正如你想象的那些等等。
    来个示例,在查询期间,使用match查询进行:

    来查询:

    就对于最终得分而言,字段,加了的查询更有影响力。也只有在查询中,更有意义。

    也可以用于查询。

    除此之外,我们还可以使用特殊的语法,只为特定的字段指定一个。通过在字段名称后添加一个符号和的值。告诉es只需对那个字段进行:

    上例中,字段被了3倍。
    需要注意的是:在使用的时候,无论是字段或者词条,都是按照相对值来的,而不是乘以乘数。如果对于所有的待搜索词条了同样的值,那么就好像没有一样(废话,就像大家都同时长高一米似的)!因为Lucene会标准化的值。如果一个字段倍,不是意味着该字段的得分就是乘以的结果。所以,如果你的得分不是按照严格的乘法结果,也不要担心。

    一切都不是你想的那样!是的,在中,一个文档要比另一个文档更符合某个查询很可能跟我们想象的不太一样!
    这一小节,我们来研究下和内部使用了怎样的公式来计算得分。
    我们通过来告诉,你要给洒家解释一下为什么这个得分是这样的?!背后到底以有什么py交易!
    比如我们来查询:

    由于结果太长,我们这里对结果进行了过滤(返回一篇文档),只查看指定的字段(只返回字段)。
    看结果:

    在新增的字段中,可以看到值是,那么是怎么算出来的呢?
    来分析,分词在描述字段(title)出现了次,所以的综合得分经过计算,得分是。
    那么逆文档词频呢?根据计算得分是。
    所以最终得分是:

    本文地址:http://dgaty.xhstdz.com/quote/339.html    物流园资讯网 http://dgaty.xhstdz.com/ , 查看更多

    特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


    0相关评论
    相关最新动态
    推荐最新动态
    点击排行
    网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号