DAY 13 羅吉斯回歸(Logistic Regression)

又拖了一天，生病了整個人就很懶，但身體感覺好蠻多了，雖然喉嚨還是很卡= =。

以前在做比賽或專題時都會嘗試各種不同的模型，像是Logistic Regression、SVM、adaboost、Random Forest等等，但是Logistic Regression往往跑出來的分數是最差的，所以我自己是很少用LR，但LR在一些簡單的資料分類，效果是還不錯。

先上個差異圖：

圖片來源：https://medium.com/@chih.sheng.huang821/%E6%A9%9F%E5%99%A8-%E7%B5%B1%E8%A8%88%E5%AD%B8%E7%BF%92-%E7%BE%85%E5%90%89%E6%96%AF%E5%9B%9E%E6%AD%B8-logistic-regression-aff7a830fb5d

昨天講了線性回歸，今天換羅吉斯回歸，雖然說是回歸但跟線性回歸是不一樣的概念，線性回歸是用來預測一個連續的值，羅吉斯回歸是用在分類，但他們都是要找到那條線，線性回歸是根據那條線去預測y，羅吉斯回歸則是透過那條線去做分類。

因為我們的資料不一定都是連續型變數，也有很多是類別型，像是「是、否」，「有、無」，等二元分類，但羅吉斯回歸也可以用在連續型資料上(像是身高大於170以上一類，小於170一類)，羅吉斯回歸的目的在於找出那條可以區隔類別資料的線。

羅吉斯跟線性的差異在於Sigmoid function，如下圖：

公式長這樣：

那先不論公式，看到上面那個function，就知道這個函數ϕ(z)是介在0-1之間的吧?

再來換下面的公式，若z = 0，則ϕ(z) = 0.5；若z為正數則ϕ(z) = 1；若z為負數則ϕ(z) = 0。

簡單來說就是希望負數能趨近於0，正數能趨近於1，達到分成兩類的機率。

因為羅吉斯回歸的變數解釋也牽扯到勝算比，所以來講一下勝算(Odd)的概念，odds是事件發生的比率/事件不發生的比率，也就是「勝算」。

以拋硬幣為例，拿到正面與拿到反面的機率都是 0.5，所以勝算就是 0.5 / 0.5 = 1。如果一件事情的發生的機率是 0.1 ，那勝算是 0.1 / 0.9 = 1/9 。如果一件事情發生的機率是 0.9 ，那勝算是 0.9 / 0.1 = 9。所以勝算是介於 0 與無限大之間。

勝算比(Odd ratio)，勝算比基本上就是事件成功與失敗的比值。

odds ratio 則是兩件事情的 odds 作比較。舉個例子來說，如果實驗組的勝算(odds) 是 2.33，對照組的勝算是 0.67，那與對照組的人比起來，實驗組的人勝算是他們的 3.48 倍(2.33/0.67)，所以勝算比 (odds ratio)就是3.48，而勝算比(OR)=exp(z)。

講起來是有點複雜了，直接透過程式去跑更能理解他整個流程。

LINE 分享

小屋創作

日誌2020-08-04 23:08
DAY 13 羅吉斯回歸(Logistic Regression)

相關創作

【日誌】快把靜流x璃乃一次帶回家!

【日誌】品客安格斯厚牛起士堡風味洋芋片

【失落的記憶】

留言

日誌2020-08-04 23:08DAY 13 羅吉斯回歸(Logistic Regression)

相關創作

【日誌】快把 靜流x璃乃 一次帶回家!

【日誌】品客安格斯厚牛起士堡風味洋芋片

【失落的記憶】

留言

日誌2020-08-04 23:08
DAY 13 羅吉斯回歸(Logistic Regression)

【日誌】快把靜流x璃乃一次帶回家!