以前在做比賽或專題時都會嘗試各種不同的模型,像是Logistic Regression、SVM、adaboost、Random Forest等等,但是Logistic Regression往往跑出來的分數是最差的,所以我自己是很少用LR,但LR在一些簡單的資料分類,效果是還不錯。
先上個差異圖:
昨天講了線性回歸,今天換羅吉斯回歸,雖然說是回歸但跟線性回歸是不一樣的概念,線性回歸是用來預測一個連續的值,羅吉斯回歸是用在分類,但他們都是要找到那條線,線性回歸是根據那條線去預測y, 羅吉斯回歸則是透過那條線去做分類。
因為我們的資料不一定都是連續型變數,也有很多是類別型,像是「是、否」,「有、無」,等二元分類,但羅吉斯回歸也可以用在連續型資料上(像是身高大於170以上一類,小於170一類),羅吉斯回歸的目的在於找出那條可以區隔類別資料的線。
羅吉斯跟線性的差異在於Sigmoid function,如下圖:
公式長這樣:
那先不論公式,看到上面那個function,就知道這個函數ϕ(z)是介在0-1之間的吧?
再來換下面的公式,若z = 0,則ϕ(z) = 0.5;若z為正數則ϕ(z) = 1;若z為負數則ϕ(z) = 0。
簡單來說就是希望負數能趨近於0,正數能趨近於1,達到分成兩類的機率。
因為羅吉斯回歸的變數解釋也牽扯到勝算比,所以來講一下勝算(Odd)的概念,odds是事件發生的比率/事件不發生的比率,也就是「勝算」。
以拋硬幣為例,拿到正面與拿到反面的機率都是 0.5,所以勝算就是 0.5 / 0.5 = 1。如果一件事情的發生的機率是 0.1 ,那勝算是 0.1 / 0.9 = 1/9 。如果一件事情發生的機率是 0.9 ,那勝算是 0.9 / 0.1 = 9。所以勝算是介於 0 與無限大之間。
勝算比(Odd ratio),勝算比基本上就是事件成功與失敗的比值。
odds ratio 則是兩件事情的 odds 作比較。舉個例子來說,如果實驗組的勝算(odds) 是 2.33,對照組的勝算是 0.67,那與對照組的人比起來,實驗組的人勝算是他們的 3.48 倍(2.33/0.67),所以勝算比 (odds ratio)就是3.48,而勝算比(OR)=exp(z)。
講起來是有點複雜了,直接透過程式去跑更能理解他整個流程。