吃角子老虎的機率 @ 招財8首創最多款獨家主題老虎機遊戲

吃角子老虎機 (bandit) 是一種賭場常見的機器，玩家將硬幣投入後拉下拉桿，接著會隨機出現不同圖案，如果停止時出現符合相同或特定相同圖案連線，則可以根據賠率得到特定的報酬 (reward) 。再簡化一點，吃角子老虎機的運作方式其實就是「玩家拉下拉桿，將會得到一個具有隨機性的報酬」。

因為報酬是隨機的，我們常以「期望報酬」（expected reward，概念上指的是玩吃角子老虎機非常多次後得到的平均報酬）去思考吃角子老虎機問題。

多臂吃角子老虎機 (multi-armed bandit) ，指的則是很多台吃角子老虎機給玩家選擇，每一台機器可以得到的期望報酬皆不一樣。站在玩家的立場，目標應該是透過機器的選擇，在遊戲中獲得最大「期望報酬」。

生活中的吃角子老虎機

吃角子老虎問題架構在生活中隨處可見。比如說在拍賣網站中，我們時常會看到「立刻購買」的按鈕，到底這個按鈕該如何設計──顏色深淺、黑底還是白底，才能夠得到最高的購買機率呢？我們當然可以透過市場調查，了解消費者對於不同設計、顏色的想法，選出一個消費者最喜歡的作為最終呈現。

然而這樣的方法有兩個問題，首先，如果每一個小設計都需要蒐集 200 份問卷，或是邀請 20 個消費者進行訪談，成本其實相當高，並不能時常執行。此外，消費者的答案是很容易被問卷或訪談主持人誘導的，因此我們可能並不能得到真正會吸引消費者購買的按鈕。

因此，我們可以透過上線測試，運用演算法讓實際的使用者點擊資料決定該選擇哪一種設計去呈現。比如說，有下列四個不同設計的按鈕，每一個按鈕都是一台「吃角子老虎機」，而在消費者進入商品頁面時我們希望呈現出「期望購買機率」最大的按鈕，此時每個拉桿的「期望報酬」便是「期望購買機率」。「多臂吃角子老虎機」便是一種「選取策略」，透過過去使用者點擊的紀錄，選擇使「期望購買機率」極大化的按鈕。

ε-優先 (ε-first) 策略：平衡探索與開發的吃角子老虎機策略

最早被提出的吃角子老虎機策略叫做「ε-優先策略」，這個策略的概念是：在「吃角子老虎機」的過程中，剛開始賭徒沒有任何各拉桿期望報酬的資訊，因此賭徒需要探索 (exploration) 各個機台報酬的可能性，也就是先試玩一段時間。累積足夠次數的探索，對於每台機器的期望報酬有了一定的了解之後，賭徒就可以開始進行開發 (exploitation) ，不斷去玩最有潛力（期望報酬最高）的機台，獲取最大的累積報酬。

如何同時兼顧探索與開發，是多拉桿吃角子老虎機策略的核心問題。如果探索得太多，可能會造成真正得到的報酬無法極大化；如果探索得太少，則可能錯失高報酬的機器。在「ε-優先策略」中，指的是「探索次數佔總次數的百分比」。

假設賭徒的資產足夠讓他玩 1000 次，而賭徒心中設定 ε = 10%，那麼在進行前 100 次遊戲時，賭徒將會隨機拉動一個拉桿，並記錄得下的報酬。之後的 900 次遊戲，賭徒將會根據過去的報酬的紀錄，每次遊戲皆選擇平均報酬最高的機台進行，全力衝刺賺取最大報酬。

ε-貪婪 (ε-greedy) 策略：邊學邊賺的演算法

「ε-優先策略」有兩個比較大的問題，一是在前 100 次的遊戲中，是否真的探索足夠了？如果今天有 50 台的機台，每個機台有 5 種可能的報酬，那麼前 100 次的遊戲中我們只能了解不到一半的可能性。另一個問題在於，前100 次的探索中，可能會花了太多力氣在「探索」上面，而損失掉了在 100 次中賺到更多報酬的可能。因此，賭徒開始思索如何一邊「探索」、一邊「開發」，也就是怎麼樣的策略能讓賭徒「邊學邊賺」？

為了達到「邊學邊做」的目標，可以採用「ε-貪婪策略」。

「ε-貪婪策略」希望能夠在盡力「開發」的同時，偶爾也試著去「探索」不同的拉桿。因此，在每一輪選擇吃角子老虎機時，將有 ε 的機率隨機選擇一台吃角子老虎機（探索），有 1 - ε 的機率會選擇過去平均報酬最大的機器（開發）。

然而，隨著玩遊戲的次數 n 的增加，賭徒對於不同機器的期望報酬越來越了解，因此會希望「探索」的機率隨著次數 n 增加下降，為了控制「探索」的步調，可以將「ε-貪婪策略」擴展為「εn-貪婪策略」。

在每一輪選擇吃角子老虎機時，將有 εn 的機率隨機選擇一個吃角子老虎機（探索），有 1 - εn 的機率會選擇過去平均報酬最大的機器（開發），而 εn將會隨著遊戲次數 n 上升而不斷下降。在某些假設下，我們可以透過數學證明「εn-貪婪策略」在遊戲次數足夠多時，選到最佳機器的機率非常高¹。

透過「情境」解決複雜的問題

傳統的多拉桿吃角子老虎機問題已經有相當多的解法，如運用統計學中信賴區間方法的「信賴上界」 (upper confidence bound)¹ ，也有用來處理每台機器每一次獎勵都會改變的「指數加權」 (exponential weighted)¹ 演算法等；然而，這些演算法都無法納入現實「情境」 (context) 進行考量。比如說，旁邊的賭客如果咒罵某台吃角子老虎機很糟，那麼賭徒應該要避免去拉那台機器。

優拓資訊採用更進步的「情境式吃角子老虎機」 (contextual bandit) ，模擬大腦「情境」與「獎勵」的調控機制，透過外部「情境」的更新，進行更好的預測。多拉桿吃角子老虎機問題大量存在於臨床試驗²、投資組合管理³、推薦系統⁴等領域之中，甚至連日前擊敗韓國棋王李世乭的 AlphaGo⁵，都有它的身影。「情境式吃角子老虎機」將能協助機器在「探索」與「開發」的報酬及風險中取得更好的平衡。

招財8online休閒遊戲平台各式老虎機slot，玩家一致口碑推薦，最公平公正的博奕。
http://m1.jp8.tw/

招財8,招財8online,JP8,老虎機,SLOT,電動間,拉霸,彩金,遊藝場

招財8新手註冊天天送遊戲幣，招財8首創最多款獨家主題老虎機遊戲，招財8讓您擁有最真實的機台體驗，招財8最公平公正的博奕，招財8老虎機水果盤刺激多元