片段資訊檢索(Passage Retrieval)介紹

在2020年十月的一場Search On活動中，Google提到在搜尋上他們有了一個重大的突破，稱之為「片段資訊檢索(Passage Retrieval)」，在全面推出後將影響7%左右的搜尋結果。這個改動是什麼? 和以往的系統有何差異? 這篇文章會來慢慢探討。

摘要

隨著「片段資訊檢索」的啟用，Google將會把網頁中片段資訊與搜尋字的相關性納入排名考量，而不再只是網頁整體與搜尋字的相關性。
這項更新會在2020年年底前推出，從美國的英文搜尋開始，將逐步拓展到全球每個語言。
推出後預計將影響7%的搜尋結果，可謂相當顯著。(做為比較基準，2019年啟用的BERT，號稱五年來最大的進步，推出時影響了約10%的英文搜尋結果。)
這次變動不影響Google收錄網站的方式，可以視作排名上的變動。

片段檢索 vs 文件檢索

以往Google是採取文件檢索(Document Retrieval)的方式，會從資料庫中找出與搜尋字相關性最高的網頁^*並回傳到搜尋結果上；但在改為片段檢索(Passage Retrieval)後，Google將會回傳與搜尋字相關性最高的訊息片段。

訊息片段(Passage)指的是網頁上的某段訊息，也就是說，若一個訊息片段與搜尋字有超高度相關性，但該片段所在的頁面與搜尋字只有低度相關性，在這次改動之後，這種頁面的排名將有機會提高。

嚴格來說，文件(document)和網頁(page)是不一樣的東西，但為了簡化討論與方便理解，這邊視為一樣的東西，如有興趣閱讀更多可以參考這篇。

這項改動解決了什麼問題

在機器學習的領域中，判斷一個東西是否「相關」有兩個非常重要的指標: Precision和Recall。Precision代表選出來的結果裡面，有多少比例是有相關的；而Recall指的是，全部有相關的東西中，有多少比例被選了出來。

有了這個觀念，就能理解在文件檢索的情形下，很多網頁會很難在SEO上有排名，因為對一個搜尋字來說真正相關的資訊(上圖綠色半圓部分)，會因為與太多無用資訊(上圖紅色半圓部分)放在同一頁(整個圓圈區域)，導致precision score非常低，稀釋了其相關性。而在片段資訊檢索下，Google對recall的重視程度會大於precision，網頁上有太多雜訊沒關係，更重要的是相關資訊的部分夠不夠完整。

白話文一句: Google能更容易對使用者輸入的問題給出更相關的答案。

現實中也不乏類似的例子，問一個非常細節的問題，有人會把該領域的相關基本資訊都講一遍，但卻沒有回答真正的問題；有人雖然知道答案，但卻先扯個天南地北再給出答案。

舉例

你可能會問「為什麼會有網頁要把有用資訊放在一堆無用資訊中?」要記得，資訊有沒有用是根據搜尋字來決定的，有可能使用者輸入的搜尋字非常非常具體(specific)，讓真正的相關資訊本身就非常匱乏，也有可能因為網頁本身的形式屬於新聞整理或論壇的類型，讓同個頁面上有多主題或者過多雜訊。

搜尋字: 「怎麼知道我家玻璃有沒有抗UV?」

Google在Search On上給的例子是「怎麼知道我家玻璃有沒有抗UV?」這個搜尋字，原本的第一名(下圖A)是篇講抗UV玻璃的文章，文章中討論不同的紫外線波長、不同種類玻璃哪個最有效、實驗結果…等等，內容相當專業但卻沒有明確回答到搜尋者的問題。

而在Passage-Based Retrieval後的第一名(下圖B)是篇論壇文章，從右邊的滾輪可以看到整個網頁相當長，但僅有中間的黃色一小段精準的回答到了搜尋的問題(高度相關)，該頁討論串的下方有點歪題甚至變成鄉民在爭論。

這並不影響Google索引(Indexing)系統的方式

在Search On的影片中，講者說”We are not just able to index webpages, but individual passages from those pages“，這段話讓很多SEO們感到困惑，認為Google改變了其索引的方式，不再收錄網頁，而是收錄「片段」，但這項理解是錯誤的，Google仍然索引整個網頁，只是在排名階段，會將片段資訊的相關性納入考量。

下圖是自然語言(NLP)中，在處理事實性問答(factoid question-answering)的三個階段，在第二步可以看到，系統會在Document Retrival選出相關檔案後，再進行Passage Retrieval的動作將重點片段提取出來。

圖片來自史丹佛大學的NLP教科書，並不代表Google的架構，但能看出片段資訊檢索和索引(indexing)一般是不同階段的事情。

(註1.) 我認為講者並非講錯，而是SEO普遍認知的”Index”可能和工程師的”Index”有所差異，搜尋一下passage indexing亦能找到相當多學術論文在討論，但避免歧異，這篇文章用「片段資訊檢索(Passage Retrieval)」稱呼之。

(註2.) 雖然中文都用「檢索」，但片段資訊檢索(retrieval)，是Google為搜尋字找出相關內容的過程；而搜尋引擎抓取網站的檢索(crawling)，指的是Google派出爬蟲到網頁上把內容抓回來的過程。

小結

在BERT推出後，看到SEO領域中很多人在討論怎麼將網站對BERT進行優化；這次的更新，不免俗地可以預期將會開始討論SEO該採取甚麼措施來優化片段資訊檢索。

這篇文章的目的是做個介紹與解釋，一來為SEO領域的新聞做個介紹，二來讓大家將來在看到相關SEO資訊的時候有更好的判斷力。未來若聽到他人說「Google現在改為片段檢索，所以網站要怎樣怎樣才會對SEO好」，試著問自己「真的是這樣嗎?」，「不管有沒有這次更新，難道文章不是本來就該進行這些優化嗎?」

這次的片段資訊檢索介紹到這邊，如果有不清楚的地方或對這次更新有什麼想法，歡迎留言讓我知道!

參考資料

在〈片段資訊檢索(Passage Retrieval)介紹〉中有 7 則留言

Jessica表示:

2020 年 11 月 6 日上午 1:28

片段資訊檢索(Passage Retrieval) 的做法固然不錯，但很容易將它與Featured Snippets 混淆在一起，看似有關連，又是個排名訊號，特別是在Google 又跳出來澄清 “Google confirms it doesn’t index passages separately ”
https://searchengineland.com/google-confirms-it-doesnt-index-passages-separately-342387
不知道版大您的看法呢?

回覆
1. Darren Huang表示:
  
  2020 年 11 月 6 日上午 11:03
  
  Passages跟Featured Snippets的確很相似，但Danny解釋是兩者由不同機制所產生，這篇文章有很好的整理! Indexing和ranking是兩個不同的階段，看起來FS和passage都屬於在做排序時發生的事情，關於google澄清passage屬於ranking階段可以看文章中倒數第二段~
  
  回覆
  1. Jessica表示:
    
    2020 年 11 月 17 日下午 11:27
    
    謝謝大大文章分享，解答了我的疑惑 🙂
    
    回覆
電商工匠王仁佑表示:

2020 年 11 月 20 日上午 1:47

這邊 Martin Splitt 有說明 Featured Snippet and Passages Ranking.
https://www.searchenginejournal.com/google-passage-ranking-martin-splitt/388206

回覆
1. Darren Huang表示:
  
  2020 年 11 月 20 日上午 11:53
  
  非常感謝補充! 和Danny講的一樣，Passage Ranking和Featured Snippet屬於兩個不同的機制，但影片中Martin有講到一個很重要的點說「Passage Ranking一般是被應用在普通搜尋結果(10 blue links)的排序上」。
  
  讀完這篇文章的朋友們，如果還有問題可以到Search Engine Journal的文章中找答案!
  
  回覆
自動引用通知: 數位引擎SEO電子報第二十二期 – 2020.12.01~2020.12.15（代） - SEO分解茶
自動引用通知: [2021]入門導讀！《Google 搜尋引擎最佳化初學者指南》實作、想法、建議（持續更新中） - 每日來點SEO

摘要

片段檢索 vs 文件檢索

這項改動解決了什麼問題

舉例

搜尋字: 「怎麼知道我家玻璃有沒有抗UV?」

這並不影響Google索引(Indexing)系統的方式

小結

在〈片段資訊檢索(Passage Retrieval)介紹〉中有 7 則留言

發佈留言 取消回覆

發佈留言