看完這篇還不會 Elasticsearch 搜索,那我就哭了！

丹楓無跡 2022-04-08

展開全文

本文主要介紹 ElasticSearch 搜索相關的知識，首先會介紹下 URI Search 和 Request Body Search，同時也會學習什么是搜索的相關性，如何衡量相關性。

Search API

我們可以把 ES 的 Search API 分為兩大類，第一類是 URI Search，用 HTTP GET 的方式在 URL 中使用查詢參數已達到查詢的目的；另一類為 Request Body Search，可以使用 ES 提供的基于 JSON 格式的格式更加完備的查詢語言 Query DSL（Domain Specific Language）

語法	范圍
/_search	集群上所有的索引
/jvm/_search	jvm
/jvm,sql/_search	jvm 和 sql
/jvm*/_search	以 jvm 開頭的索引

在查詢的時候需要通過 _search 來標明這個請求為搜索請求，同時可以指定 index，也可以指定多個 index，也可以使用通配符的方式對 index 進行搜索。

下面來看下 URI Search：

URI Search

GET /users/_search?q=username:wupx

URI Search 使用的是 GET 方式，其中 q 指定查詢語句，語法為 Query String Syntax，是 KV 鍵值對的形式；上面的請求表示對 username 字段進行查詢，查詢包含 wupx 的所有文檔。

URI Search 有很多參數可以指定，除了 q 還有如下參數：

df：默認字段，不指定時會對所有字段進行查詢
sort：根據字段名排序
from：返回的索引匹配結果的開始值，默認為 0
size：搜索結果返回的條數，默認為 10
timeout：超時的時間設置
fields：只返回索引中指定的列，多個列中間用逗號分開
analyzer：當分析查詢字符串的時候使用的分詞器
analyze_wildcard：通配符或者前綴查詢是否被分析，默認為 false
explain：在每個返回結果中，將包含評分機制的解釋
_source：是否包含元數據，同時支持 _source_includes 和 _source_excludes
lenient：若設置為 true，字段類型轉換失敗的時候將被忽略，默認為 false
default_operator：默認多個條件的關系，AND 或者 OR，默認為 OR
search_type：搜索的類型，可以為 dfs_query_then_fetch 或 query_then_fetch，默認為 query_then_fetch

在了解了基本的查詢參數后，讓我們先來看下什么是指定字段查詢和什么是泛查詢？

比如 GET /movies/_search?q=2012&df=title 這個例子就是指定字段查詢，同樣 GET /movies/_search?q=title:2012 也可以達到指定字段查詢的目的。

再舉一個泛查詢的例子 GET /movies/_search?q=2012，會對所有字段進行查詢。

接下來，看下什么是 Term Query 和 Phrase Query：

比如：Beautiful Mind 等效于 Beautiful OR Mind；"Beautiful Mind"等效于 Beautiful AND Mind，另外還要求前后順序保存一致。

當為 Term Query 的時候，就需要把這兩個詞用括號括起來，請求為 GET /movies/_search?q=title:(Beautiful Mind)，意思就是查詢 title 中包括 Beautiful 或者 Mind。

當為 Phrase Query 的時候就需要用引號包起來，請求為 GET /movies/_search?q=title:"Beautiful Mind"。

另外還支持布爾操作，比如 AND（&&）、OR（||）、NOT（！），需要注意大寫，不能小寫。

在這里舉一個 NOT 的例子：GET /movies/_search?q=title:(Beautiful NOT Mind)，這個請求表示查詢 title 中必須包括 Beautiful 不能包括 Mind 的文檔。

URI Search 還包括一些范圍查詢和數學運算符號，比如指定電影的年份大于 1994：GET /movies/_search?q=year:>=1994。

URI Search 還支持通配符查詢（查詢效率低，占用內存大，不建議使用，特別是放在最前面），還支持正則表達式，以及模糊匹配和近似查詢。

URI Search 好處就是操作簡單，只要寫個 URI 就可以了，方便測試，但是 URI Search 只包含一部分查詢語法，不能覆蓋所有 ES 支持的查詢語法。

因此讓我們來看下 Request Body Search：

Request Body Search

在 ES 中一些高階用法只能在 Request Body 里做，所以我們盡量使用 Request Body Search，它支持 GET 和 POST 方式對索引進行查詢，需要指定操作的索引名稱，同樣也要通過 _search 來標明這個請求為搜索請求，我們可以在請求體中使用 ES 提供的 DSL，下面這個例子就是簡單的 Query DSL：

POST /users/_search
{
	"query": {
		"match_all": {}
	}
}

上面的請求的意思就是把所以的結果都返回。

也可以在 Request Body 中加入 from 和 size 參數以達到分頁的效果：

POST /movies/_search
{
  "from":10,
  "size":20,
  "query":{
    "match_all": {}
  }
}

默認 from 從 0 開始，返回 10 個結果，獲取靠后的翻頁成本較高。

如果想對搜索的結果排序也可以在請求體中加上 sort 參數：

POST /movies/_search
{
  "sort":[{"year":"desc"}],
  "query":{
    "match_all": {}
  }
}

最好在“數字型”與“日期型”字段上排序，因為對于多值類型或者分析過的字段排序，系統會選一個值，無法得知該值。

如果 _source 的數據量比較大，有些字段也不需要拿到這個信息，那么就可以對它的 _source 進行過濾，把需要的信息加到 _source 中，比如以下請求就是 _source 中只返回 title：

POST /movies/_search
{
  "_source":["title"],
  "query":{
    "match_all": {}
  }
}

如果 _source 沒有存儲，那就只返回匹配的文檔的元數據，同時 _source 也支持使用通配符。

接下來介紹下腳本字段，腳本字段可以使用 ES 中的 painless 的腳本去算出一個新的字段結果。

GET /movies/_search
{
  "script_fields": {
    "new_field": {
      "script": {
        "lang": "painless",
        "source": "doc['year'].value+'_hello'"
      }
    }
  },
  "query": {
    "match_all": {}
  }
}

這個例子中就使用 painless 把電影的年份和 _hello 進行拼接形成一個新的字段 new_field。

在上面我們剛介紹了在 URI Search 中的 Term Query 和 Phrase Query，接下來讓我們看下 Request Body 中是怎么做的吧！

在此之前先來插播一條小知識-字段類查詢，字段類查詢主要包括以下兩類：

全文匹配：針對 text 類型的字段進行全文檢索，會對查詢語句先進行分詞處理，如 match，match_phrase 等 query 類型
單詞匹配：不會對查詢語句做分詞處理，直接去匹配字段的倒排索引，如 term，terms，range 等 query 類型

好了，現在我們來接著往下看。

可以在 Request Body 中使用在 query match 的方式把信息填在里面，我們先來看下 Match Query，比如下面這個例子，填入兩個單詞，默認是 wupx or huxy 的查詢條件，如果想查詢兩者同時出現，可以通過加 "operator": "and" 來實現。

POST /users/_search
{
  "query": {
    "match": {
      "title": "wupx huxy"
      "operator": "and"
    }
  }
}

我們通過一張圖來看下 Match Query 的流程：

首先對查詢語句進行分詞，分成 wupx 和 huxy 兩個 Term，然后 ES 會拿到 username 的倒排索引，對 wupx 和 huxy 去進行匹配的算分，比如 wupx 對應的文檔是 1 和 2，huxy 對應的文檔為 1，然后 ES 會利用算分算法（比如 TF/IDF 和 BM25，BM25 模型 5.x 之后的默認模型）列出文檔跟查詢的匹配得分，然后 ES 會對 wupx huxy 的文檔的得分結果做一個匯總，最終根據得分排序，返回匹配文檔。

Request Body 中還支持 Match Phrase 查詢，但在 query 條件中的詞必須順序出現的，可以通過 slop 參數控制單詞間的間隔，比如加上 "slop" :1，表示中間可以有一個其他的字符。

POST /movies/_search
{
  "query": {
    "match_phrase": {
      "title":{
        "query": "one love"
        "slop":1
      }
    }
  }
}

了解完 Match Query，讓我們再來看下 Term Query：

如果不希望 ES 對輸入語句作分詞處理的話，可以用 Term Query，將查詢語句作為整個單詞進行查詢，使用方法和 Match 類似，只需要把 match 換為 term 就可以了，如下所示：

POST /users/_search
{
  "query": {
    "term": {
        "username":"wupx"
    }
  }
}

Terms Query 顧名思義就是一次可以傳入多個單詞進行查詢，關鍵詞是 terms，如下所示：

POST /users/_search
{
  "query": {
    "terms": {
      "username": [
        "wupx",
        "huxy"
      ]
    }
  }
}

另外 DSL 還支持特定的 Query String 的查詢，比如指定默認查詢的字段名 default_field 就和前面介紹的 df 是一樣的，在 query 中也可以使用 AND 來實現一個與的操作。

POST users/_search
{
  "query": {
    "query_string": {
      "default_field": "username",
      "query": "wupx AND huxy"
    }
  }
}

下面來看下 Simple Query String Query，它其實和 Query String 類似，但是會忽略錯誤的查詢語法，同時只支持部分查詢語法，不支持 AND OR NOT，會當作字符串處理，Term 之間默認的關系是 OR，可以指定 default_operator 來實現 AND 或者 OR，支持用 + 替代 AND，用 | 替代 OR，用 - 替代 NOT。

下面這個例子就是查詢 username 字段中同時包含 wu 和px 的請求：

{
  "query": {
    "simple_query_string": {
      "query": "wu px",
      "fields": ["username"],
      "default_operator": "AND"
    }
  }
}

到此為止，我們就對 DSL 做了個簡單介紹，更高階的 DSL 會在以后的文章中進行介紹。

然后，我們來看下請求后返回的結果 Response 長什么樣吧！

Response

{
  "took" : 1,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 1,
      "relation" : "eq"
    },
    "max_score" : 0.9808292,
    "hits" : [
      {
        "_index" : "users",
        "_type" : "_doc",
        "_id" : "1",
        "_score" : 0.9808292,
        "_source" : {
          "username" : "wupx",
          "age" : "18"
        }
      }
    ]
  }
}

其中 took 表示花費的時間；total 表示符合條件的總文檔數；hits 為結果集，默認是前 10 個文檔；_index 為索引名；_id 為文檔 id；_score 為相關性評分；_source 為文檔的原始信息。

搜索的相關性（Relevance）

那么我們平時在搜索的時候，比如輸入小米手機，會返回很多結果，從用戶角度關心的有：是否找到所有相關的內容，有多少不相關的內容被返回了，比如輸入的小米手機的時候不應該返回糧食的小米給用戶，同時文檔應該按照打分的方式進行排序，也就是搜索結果中的 _score，另外，搜索引擎需要結合業務需求，平衡結果排名。

如何評估相關性？

在信息檢索學中對相關性是有指標去評估的，第一個是查準率（Precision），具體含義是盡可能返回較少的無關文檔給用戶；第二個為查全率（Recall），也就是盡量返回較多的相關文檔；第三個為是否能夠按照相關度進行排序（Ranking）。

下面通過一張圖來對查準率和查全率有一個更形象的理解：

其中黃色的三角形代表不相關的內容，綠色的圓代表相關的內容；在搜索結果中，黃色的三角形起名為 False Positive（納偽，簡寫 fp），通常稱作誤報，綠色的圓起名為 True Positive（納真，簡寫 tp）；在沒有被搜索到的范圍中，綠色的圓的起名為 False Negatives（去真，簡寫 fn），也常稱作漏報，黃色的三角形起名為 True Negative（去偽，簡寫 tn）。

那么我們可以得到：

查準率等于正確的搜索結果除以全部返回的結果，即 Precision = tp / ( tp + fp )
查全率等于正確的搜索結果除以所有應該返回的結果，即 Recall = tp / ( tp + fn )

在 ES 中提供了許多的查詢相關參數來改善搜索的 Precision 和 Recall。

總結

本文主要簡單介紹了 ES Search API 的兩種形式，學習了 URI Search 的基本方法，還學習了 Term Search 和 Phrase Search 的區別，同時介紹了什么叫搜索相關性，以及如何評估相關性。

參考文獻

《Elasticsearch技術解析與實戰》

Elastic Stack從入門到實踐

Elasticsearch頂尖高手系列

Elasticsearch核心技術與實戰

https://www./guide/en/elasticsearch/reference/7.1/search.html

本站是提供個人知識管理的網絡存儲空間，所有內容均由用戶發布，不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息，謹防詐騙。如發現有害或侵權內容，請點擊一鍵舉報。