何謂 多臂老虎機 測試(Multi-Armed Bandit Testing):賭徒的人工智慧?

何謂 多臂老虎機 ?企業在進行A/B測試時有其成本,除了背後的運營成本,A/B測試還會將流量浪費在效果較差的選項上。而且對較差的測試網頁,發送一樣的測試流量,其實也代表失去讓消費者點擊、轉化、與留下深刻印象的機會。

現在有一種測試方法叫做「多臂式 吃角子老虎機 測試(Multi-Armed Bandit Testing)」,可做為A/B測試的替代方案。請想像一下,您置身在一座滿是 吃角子老虎機 的大賭場,裡面有很多台不同的 吃角子老虎機 (俗稱「單臂匪徒」,以剝光和搶劫賭客荷包聞名)。因為每一台老虎機,都有一個下拉的槓桿,讓您在投幣下注後可以拉動。而您認為,某些特定機台出現連線的頻率,要比其他老虎機來得高,在時間有限的情況下,如何讓自己快速地滿載而歸。

這個問題,其實是一個經典的思考實驗。因為每個人只有兩隻手臂。一次最多只能拉兩台機器,無法很快地找到(自認為)勝率較高的機台。而且萬一兩台勝率較高的 吃角子老虎機 相隔很遠,您也拉不太到。而我們的目標是贏得最多的錢走出賭場。問題在於,您如何在最短時間內,知道哪一台老虎機是最好的,並且贏得最多的錢?

您猜到答案了嗎?就是把自己變成一隻八爪章魚,因為唯有在最短時間內,儘量去拉動不同機台,並且發現哪個機台的勝率較高,接著就將更多的錢投到該機台上。

多臂老虎機 測試(Multi-Armed Bandit Testing)便是利用以上的概念,企圖解決A/B測試浪費流量的問題。實驗開始,多臂老虎機 測試會讓每個頁面的流量是平均分配的,但過了一段時間之後,就開始為最佳的版本提供更多的流量(如下圖中間所示)。也就是說,多臂老虎機 測試,會自動將更多的網友分配給效果最佳的網頁,以產生更多的點擊或轉化。隨著流量分配的變化,效果最佳的網頁也可能跟著改變,直到有明確的贏家為止。

資料來源:DYNAMIC YIELD

不過,在進行 多臂老虎機 測試時,隨著時間的流逝,如果勝出的網頁轉換率開始降低,系統則會將流量自動提供給其他版本。這樣的缺點是,可能會得到適得其反的決策,尤其是在實驗階段很短的情況下。

最後,在 吃角子老虎機 測試的作法裡,還有一種所謂的「情境式 吃角子老虎機 」(contextual bandit)測試(如上圖最右方)。情境式 吃角子老虎機 測試的目的,不是找出最受大多數人歡迎的網頁,而是希望找出最適合不同人的不同網頁。亦即無論是A/B測試或是 多臂老虎機 測試都有贏家或輸家,情境式 吃角子老虎機 則沒有。

>>>想看更多線上老虎機攻略也可點此前往!<<<