A/B測試與統計顯著性

試想今天執行了一個PPC的A/B Testing,結果如下:

  • A廣告 – 被1200個人看到,60人點擊,CTR= 5.0%
  • B廣告 – 被1050個人看到,65人點擊,CTR= 6.19%

請問哪個廣告的表較好,未來應該提高哪個廣告的預算?

相較於A廣告,B廣告被更少的人看到卻被更多的人點擊,CTR比A高了1.19% (或者說B的CTR是A的1.24倍)。相信大多數的人都會不加思索地說B廣告的效益較高。 但是稍微有統計基礎的人,或是有注意到這篇文章標題的人,就會知道答案不是這麼簡單的哪個好哪個不好,除了CTR還應該要考慮的另一個大要素是: 顯著性

顯著性 (Significance)

沒有甚麼數學/統計概念的人可以放心,這篇不會講到很深的概念。顯著性的問題在統計學中可以到非常非常複雜,因此本篇以一般的情況下進行討論。 

下面舉一個較極端的例子 – 比較擲硬幣的結果:

  • 穿紅衣服的時候: 丟了10次,出現人頭5次,出現人頭的機率50%
  • 穿藍衣服的時候: 丟了9次,出現人頭6次,出現人頭的機率66.7%

相較於穿紅衣服,穿藍衣服時丟比較少次,卻得到更多次人頭,出現人頭的機率比穿紅衣服時高了16.7%(或者說穿藍衣服時擲出人頭的機率是穿紅衣服時的1.334倍)。所以得出結論穿藍衣服比較容易丟出人頭…..?

大家應該都有感覺出這次的例子有什麼不對勁,其實用統計的觀點來看,第一個例子也是如此,只是在第二個例子我們的直覺告訴我們擲硬幣出現人頭的機率應該要是50%。

信心水準 (Confidence Level)

那麼第一個例子裡的A廣告和B廣告到底是誰比較好? 

今天就算B廣告被1050個人看到、被200個人點,CTR超級高,一個討厭的統計學家也不會跟你說B廣告”一定”比較好,他會說B”可能”比A好,只是他對這個”可能”的信心非常非常的高,且這個信心水準可能有個99.9999…..%。

如何回答才可以好像很會?

統計上習慣以95%當作分析比較時的信心水準,所以對文章一開始的例子比較好的回答是:「B的結果雖然比A好,但在95%信心水準下,這個測試不具有顯著性」,或者是「B可能比A好,但是我只有89%左右的的信心水準」,後面再補一句:「如果要使測試結果達到顯著,我們應該繼續測試、提高impression(樣本數)。」

樣本數 (Sample Size)

沒錯! 在擲硬幣的例子應該有人會想: “阿才丟10次,9次是有麼好下結論的啦”。這裡的10次9次跟第一個例子裡的1200, 1050都是樣本數,樣本數越多,硬幣丟越多次,出現人頭的頻率就要越接近50%。 

硬幣例子裡多數人會想到樣本數不足的問題,但在第一個例子裡就不會有太多人去懷疑樣本數夠不夠。1200次和1050次好像很多,但是真的夠多嗎? 真的夠多到我有95%的信心水準說B就是比A好嗎? 如果下次再有兩個C、D廣告的A/B Testing

  • C廣告 – 被12000個人看到,600人點擊,CTR= 5.0%
  • D廣告 – 被10500個人看到,700人點擊,CTR= 6.67%

你能夠肯定的告訴你的上司在95%信心水準下,D廣告有比C好嗎?

95%信心水準下…它夠好嗎?

做了這個Google Sheet,只要輸入兩項測試的觸及和轉化就可以看出結果是否在90%, 95%, 99%下具有顯著性,歡迎複製一份自行使用。

AB測試顯著性計算機

另外這個英文的工具也非常好用,推薦給大家。

結語

這個觀念應該是很多在執行不管PPC或是SEO測試時都會遇到的問題,怎樣的文案有更好的點擊率,廣告放哪張圖比較吸引人…等等,下次遇到類似情形不要馬上被最後的conversion rate說服,記得問問”樣本數有夠嗎?”、”這樣的比較結果是否具有顯著性”,絕對可以在跟上司報告的時候展現專業度,或是噹下屬的時候派上用場!

寫了才知道這是我這個部落格第一篇關於Analytics的文章…以後會越來越多的,這篇文章必須要像我在數據分析界的偶像致敬一下Avinash Kaushik,本文主題也是參照他的 Excellent Analytics Tip#1: Compute Statistical Significance,他的部落格非常值得Follow,在小弟數據分析能獨當一面寫出一篇文章之前,都會翻譯一些讀到的有趣的大師的文章。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *