رگرسیون لجستیک

رگرسیون لجستیک (به انگلیسی: Logistic regression) یک مدل آماری رگرسیون برای متغیرهای وابسته دوسویی مانند بیماری یا سلامت، مرگ یا زندگی است. این مدل را می‌توان به عنوان مدل خطی تعمیم‌یافته‌ای که از تابع لوجیت به عنوان تابع پیوند استفاده می‌کند و خطایش از توزیع چندجمله‌ای پیروی می‌کند، به‌حساب‌آورد.
منظور از دو سویی بودن، رخ داد یک واقعه تصادفی در دو موقعیت ممکنه است. به عنوان مثال خرید یا عدم خرید، ثبت نام یا عدم ثبت نام، ورشکسته شدن یا ورشکسته نشدن و … متغیرهایی هستند که فقط دارای دو موقعیت هستند و مجموع احتمال هر یک آن‌ها در نهایت یک خواهد شد. کاربرد این روش عمدتاً در ابتدای ظهور در مورد کاربردهای پزشکی برای احتمال وقوع یک بیماری مورد استفاده قرار می‌گرفت. لیکن امروزه در تمام زمینه‌های علمی کاربرد وسیعی یافته‌است. به عنوان مثال مدیر سازمانی می‌خواهد بداند در مشارکت یا عدم مشارکت کارمندان کدام متغیرها نقش پیش‌بینی دارند؟ مدیر تبلیغاتی می‌خواهد بداند در خرید یا عدم خرید یک محصول یا برند چه متغیرهایی مهم هستند؟ یک مرکز تحقیقات پزشکی می‌خواهد بداند در مبتلا شدن به بیماری عروق کرنری قلب چه متغیرهایی نقش پیش‌بینی‌کننده دارند؟ تا با اطلاع‌رسانی از احتمال وقوع کاسته شود.

رگرسیون لجستیک می‌تواند یک مورد خاص از مدل خطی عمومی و رگرسیون خطی دیده شود. مدل رگرسیون لجستیک، بر اساس فرض‌های کاملاً متفاوتی (دربارهٔ رابطه متغیرهای وابسته و مستقل) از رگرسیون خطی است. تفاوت مهم این دو مدل در دو ویژگی رگرسیون لجستیک می‌تواند دیده شود. اول توزیع شرطی $vec x$ یک توزیع برنولی به جای یک توزیع گوسی است چونکه متغیر وابسته دودویی است. دوم مقادیر پیش‌بینی احتمالاتی است و محدود بین بازه صفر و یک و به کمک تابع توزیع لجستیک بدست می‌آید رگرسیون لجستیک احتمال خروجی پیش‌بینی می‌کند.

این مدل به صورت

displaystyle operatorname logit (p)=ln left(frac p1-pright)=beta _0+beta _1x_1,i+cdots +beta _kx_k,i,

displaystyle i=1,dots ,n,,

است که

displaystyle p=Pr(y_i=1).,

displaystyle p=Pr(y_i=1

محتویات

۱ برآورد پارامترهای بهینه

۲ تنظیم مدل (Regularization)
- ۲.۱ تفسیر احتمالی تنظیم مدل

۳ جستارهای وابسته

۴ منابع

برآورد پارامترهای بهینه[ویرایش]

برای بدست آوردن پارامترهای بهینه یعنی $displaystyle vec beta =[beta _0,beta _1,cdots ,beta _k]$ می‌توان از روش برآورد درست نمایی بیشینه (Maximum Likelihood Estimation) استفاده کرد. اگر فرض کنیم که تعداد مثالهایی که قرار است برای تخمین پارامترها استفاده کنیم $displaystyle n$ است و این مثالها را به این شکل نمایش دهیم $displaystyle D=(vec x_1,y_1),cdots (vec x_n,y_n)$ . پارامتر بهینه پارامتری است که برآورد درست نمایی را بیشینه کند، البته برای سادگی کار برآورد لگاریتم درست نمایی را بیشینه می‌کنیم. لگاریتم درست نمایی داده $D$ برای پارامتر $displaystyle vec beta$ را با $displaystyle L(D,vec beta )$ نمایش می‌دهیم:

$vec x_i;vec beta )^y_itimes Pr(y_i=0$

اگر برای داده $i$ ام $displaystyle y_i=1$ باشد، هدف افزایش $vec x_i;vec beta right)$ است و اگر $y_i$ صفر باشد هدف افرایش مقدار $vec x_i;vec beta right)$ است. از این رو از فرمول $vec x_i;vec beta )^y_itimes Pr(y_i=0$ استفاده می‌کنیم که اگر $displaystyle y_i=1$ باشد، فرمول به ما $vec x_i;vec beta right)$ را بدهد و اگر $displaystyle y_i=0$ بود به ما $vec x_i;vec beta right)$ را بدهد.

حال برای بدست آوردن پارامتر بهینه باید $displaystyle vec beta$ یی پیدا کنیم که مقدار $displaystyle L(D,vec beta )$ را بیشینه کند. از آنجا که این تابع نسبت به $displaystyle vec beta$ مقعر است حتماً یک بیشینه مطلق دارد. برای پیدا کردن جواب می‌توان از روش گرادیان افزایشی از نوع تصادفی اش استفاده کرد (Stochastic Gradient Ascent). در این روش هر بار یک مثال را بصورت اتفاقی از نمونه‌های داده انتخاب کرده، گرادیان درست نمایی را حساب می‌کنیم و کمی در جهت گرادیان پارامتر را حرکت می‌دهیم تا به یک پارامتر جدید برسیم. گرادیان جهت موضعی بیشترین افزایش را در تابع به ما نشان می‌دهد، برای همین در آن جهت کمی حرکت می‌کنیم تا به بیشترین افزایش موضعی تابع برسیم. اینکار را آنقدر ادامه می‌دهیم که گرادیان به اندازه کافی به صفر نزدیک شود. بجای اینکه داده‌ها را بصورت تصادفی انتخاب کنیم می‌توانیم به ترتیب داده شماره $1$ تا داده شماره $n$ را انتخاب کنیم و بعد دوباره به داده اولی برگردیم و این کار را بصورت متناوب چندین بار انجام دهیم تا به اندازه کافی گرادیان به صفر نزدیک شود. از لحاظ ریاضی این کار را می‌توان به شکل پایین انجام داد، پارامتر $displaystyle vec beta$ را در ابتدا بصورت تصادفی مقدار دهی می‌کنیم و بعد برای داده $i$ ام و تمامی $j$ ‌ها، یعنی از $displaystyle j=1$ تا $displaystyle j=m+1$ تغییر پایین را اعمال می‌کنیم، دراینجا $alpha$ همان مقداریست که در جهت گرادیان هربار حرکت می‌کنیم و $displaystyle left(y_i-frac 11+e^-left(beta _0+beta _1x_1,i+cdots +beta _kx_k,iright)right)vec x_i,j$ مشتق جزئی داده $i$ ام در بُعد $j$ ام است:

$displaystyle begincasesmboxInitialize,,vec beta ^,old,,mboxrandomly\mboxloop until convergence :\,,mboxfor,,,,i=0,,,,mboxto,,,,n:\,,,,,,mboxfor,,,,j=0,,,,mboxto,,,,m:\,,,,,,,,,,,,vec beta _j^,new=vec beta _j^,old+alpha left(y_i-frac 11+e^-left(beta _0^,old+beta _1^,oldx_1,i+cdots +beta _k^,oldx_k,iright)right)vec x_i,j\,,,,,,beta ^,old=beta ^,newendcases$

تنظیم مدل (Regularization)[ویرایش]

پیچیدگی مدلهای پارامتری با تعداد پارامترهای مدل و مقادیر آنها سنجیده می‌شود. هرچه این پیچیدگی بیشتر باشد خطر بیش‌برازش (Overfitting) برای مدل بیشتر است.^[۱] پدیده بیش‌برازش زمانی رخ می‌دهد که مدل بجای یادگیری الگوهای داده، داده را را حفظ کند و در عمل، فرایند یادگیری به خوبی انجام نمی‌شود. برای جلوگیری از بیش‌برازش در مدلهای خطی مانند رگرسیون خطی یا رگرسیون لجستیک جریمه‌ای به تابع هزینه اضافه می‌شود تا از افزایش زیاد پارامترها جلوگیری شود. تابع هزینه را در رگرسیون لجستیک با منفی لگاریتم درست‌نمایی تعریف می‌کنیم تا کمینه کردن آن به بیشینه کردن تابع درست نمایی بیانجامد. به این کار تنظیم مدل یا Regularization گفته می‌شود. دو راه متداول تنظیم مدلهای خطی روشهای $displaystyle L_1$ و $displaystyle L_2$ هستند.^[۲] در روش $displaystyle L_1$ ضریبی از نُرمِ $displaystyle L_1$ به تابع هزینه اضافه می‌شود و در روش $displaystyle L_2$ ضریبی از نُرمِ $displaystyle L_2$ که همان نُرمِ اقلیدسی است به تابع هزینه اضافه می‌شود.

در تنظیم مدل به روش $displaystyle L_1$ تابع هزینه را به این شکل تغییر می‌دهیم:^[۳]

$displaystyle L_r(D,vec beta )=-L(D,vec beta )+lambda$

این روش تنظیم مدل که به روش لاسو (Lasso) نیز شهرت دارد باعث می‌شود که بسیاری از پارامترهای مدل نهائی صفر شوند و مدل به اصطلاح خلوت (Sparse) شود.^[۴]

در تنظیم مدل به روش $displaystyle L_2$ تابع هزینه را به این شکل تغییر می‌دهیم:

$\text{[math]}$

در روش تنظیم از طریق $displaystyle L_2$ سعی می‌شود طول اقلیدسی بردار $displaystyle vec beta$ کوتاه نگه داشته شود. $lambda$ در روش $displaystyle L_1$ و $displaystyle L_2$ یک عدد مثبت است که میزان تنظیم مدل را معین می‌کند. هرچقدر $lambda$ کوچکتر باشد جریمه کمتری برا بزرگی نرم بردار پارامترها یعنی $displaystyle vec beta$ پرداخت می‌کنیم. مقدار ایدئال $lambda$ از طریق آزمایش بر روی داده اعتبار (Validation Data) پیدا می‌شود.

تفسیر احتمالی تنظیم مدل[ویرایش]

اگر بجای روش درست نمایی بیشینه از روش بیشینه سازی احتمال پسین استفاده کنیم به ساختار «تنظیم مدل» یا همان regularization خواهیم رسید.^[۵] اگر مجموعه داده را با $D$ نمایش بدهیم و پارامتری که به دنبال تخمین آن هستیم را با $displaystyle vec beta$ ، احتمال پسین $displaystyle Prleft(vec beta ,$ ، طبق قانون بیز متناسب خواهد بود با حاصلضرب درست نمایی یعنی $,vec beta right)$ و احتمال پیشین یعنی $displaystyle Prleft(vec beta right)$ :^[۶]

$,Dright)=frac Prleft(D,Prleft(Dright)$

ازین رو

$displaystyle argmax_vec beta Prleft(vec beta ,$

معادله خط پیشین نشان می‌دهد که برای یافتن پارامتر بهینه فقط کافیست که احتمال پیشین را نیز در معادله دخیل کنیم. اگر احتمال پیشین را یک توزیع احتمال با میانگین صفر و کوواریانس $displaystyle tau ^2I$ در نظر بگیریم به معادله پایین می‌رسیم:^[۷]

$,vec beta right)=argmax_vec beta ,,log prod _i=1^nPr(y_i$

با ساده کردن این معادله به نتیجه پایین می‌رسیم:

$\text{[math]}$

با تغییر علامت معادله، بیشینه‌سازی را به کمینه‌سازی تغییر می‌دهیم، $displaystyle lambda$ در این معادله همان $displaystyle frac 12tau ^2$ است:

$vec beta$

همان‌طور که دیدیم جواب همان تنظیم مدل با نرم $displaystyle L_2$ است.

حال اگر توزیع پیشین را از نوع توزیع لاپلاس با میانگین صفر درنظر بگیریم به تنظیم مدل با نرم $displaystyle L_1$ خواهیم رسید.^[۸]

از آنجا که میانگین هر دو توزیع پیشین صفر است، پیش‌فرض تخمین پارامتر بر این بنا شده‌است که اندازه پارامتر مورد نظر کوچک و به صفر نزدیک باشد و این پیش‌فرض با روند تنظیم مدل همخوانی دارد.^[۸]

جستارهای وابسته[ویرایش]

تحلیل تفکیک خطی

پرویبت

پرسپترون

شبکه عصبی مصنوعی

کاوش‌های ماشینی در داده‌ها

رگرسیون خطی

رگرسیون پواسون

منابع[ویرایش]

↑ Bühlmann, Peter; van de Geer, Sara (2011). "Statistics for High-Dimensional Data". Springer Series in Statistics. doi:10.1007/978-3-642-20192-9. ISSN 0172-7397..mw-parser-output cite.citationfont-style:inherit.mw-parser-output qquotes:"""""""'""'".mw-parser-output code.cs1-codecolor:inherit;background:inherit;border:inherit;padding:inherit.mw-parser-output .cs1-lock-free abackground:url("//upload.wikimedia.org/wikipedia/commons/thumb/6/65/Lock-green.svg/9px-Lock-green.svg.png")no-repeat;background-position:right .1em center.mw-parser-output .cs1-lock-limited a,.mw-parser-output .cs1-lock-registration abackground:url("//upload.wikimedia.org/wikipedia/commons/thumb/d/d6/Lock-gray-alt-2.svg/9px-Lock-gray-alt-2.svg.png")no-repeat;background-position:right .1em center.mw-parser-output .cs1-lock-subscription abackground:url("//upload.wikimedia.org/wikipedia/commons/thumb/a/aa/Lock-red-alt-2.svg/9px-Lock-red-alt-2.svg.png")no-repeat;background-position:right .1em center.mw-parser-output div[dir=ltr] .cs1-lock-subscription a,.mw-parser-output div[dir=ltr] .cs1-lock-limited a,.mw-parser-output div[dir=ltr] .cs1-lock-registration abackground-position:left .1em center.mw-parser-output .cs1-subscription,.mw-parser-output .cs1-registrationcolor:#555.mw-parser-output .cs1-subscription span,.mw-parser-output .cs1-registration spanborder-bottom:1px dotted;cursor:help.mw-parser-output .cs1-hidden-errordisplay:none;font-size:100%.mw-parser-output .cs1-visible-errorfont-size:100%.mw-parser-output .cs1-subscription,.mw-parser-output .cs1-registration,.mw-parser-output .cs1-formatfont-size:95%.mw-parser-output .cs1-kern-left,.mw-parser-output .cs1-kern-wl-leftpadding-left:0.2em.mw-parser-output .cs1-kern-right,.mw-parser-output .cs1-kern-wl-rightpadding-right:0.2em

↑ Bühlmann, Peter; van de Geer, Sara (2011). Theory for ℓ1/ℓ2-penalty procedures. Berlin, Heidelberg: Springer Berlin Heidelberg. pp. 249–291. doi:10.1007/978-3-642-20192-9_8. ISBN 9783642201912.

↑ Bishop, Christopher (2006). Pattern Recognition and Machine Learning. New York: Christopher. ISBN 9780387310732.

↑ Natarajan, B. K. (1995). "Sparse Approximate Solutions to Linear Systems". SIAM Journal on Computing. 24 (2): 227–234. doi:10.1137/s0097539792240406. ISSN 0097-5397.

↑ Bishop, Christopher M (2016-08-23). Pattern Recognition and Machine Learning (به English). New York: Springer New York. p. 30. ISBN 9781493938438. نگهداری یادکرد:تاریخ و سال (link) نگهداری یادکرد:زبان ناشناخته (link)

↑ Robert, Christian (2014-04-03). "Machine Learning, a Probabilistic Perspective". CHANCE. 27 (2): 62–63. doi:10.1080/09332480.2014.914768. ISSN 0933-2480.

↑ Robert, Christian (2014-04-03). "Machine Learning, a Probabilistic Perspective". CHANCE. 27 (2): 62–63. doi:10.1080/09332480.2014.914768. ISSN 0933-2480.

↑ ^۸٫۰^۸٫۱ Robert, Christian (2014-04-03). "Machine Learning, a Probabilistic Perspective". CHANCE. 27 (2): 62–63. doi:10.1080/09332480.2014.914768. ISSN 0933-2480.

ویکی‌پدیای انگلیسی

این یک مقالهٔ خرد پیرامون ریاضیات است. با گسترش آن به ویکی‌پدیا کمک کنید.

[1] Bühlmann, Peter; van de Geer, Sara (2011). "Statistics for High-Dimensional Data". Springer Series in Statistics. doi:10.1007/978-3-642-20192-9. ISSN 0172-7397..mw-parser-output cite.citationfont-style:inherit.mw-parser-output qquotes:"""""""'""'".mw-parser-output code.cs1-codecolor:inherit;background:inherit;border:inherit;padding:inherit.mw-parser-output .cs1-lock-free abackground:url("//upload.wikimedia.org/wikipedia/commons/thumb/6/65/Lock-green.svg/9px-Lock-green.svg.png")no-repeat;background-position:right .1em center.mw-parser-output .cs1-lock-limited a,.mw-parser-output .cs1-lock-registration abackground:url("//upload.wikimedia.org/wikipedia/commons/thumb/d/d6/Lock-gray-alt-2.svg/9px-Lock-gray-alt-2.svg.png")no-repeat;background-position:right .1em center.mw-parser-output .cs1-lock-subscription abackground:url("//upload.wikimedia.org/wikipedia/commons/thumb/a/aa/Lock-red-alt-2.svg/9px-Lock-red-alt-2.svg.png")no-repeat;background-position:right .1em center.mw-parser-output div[dir=ltr] .cs1-lock-subscription a,.mw-parser-output div[dir=ltr] .cs1-lock-limited a,.mw-parser-output div[dir=ltr] .cs1-lock-registration abackground-position:left .1em center.mw-parser-output .cs1-subscription,.mw-parser-output .cs1-registrationcolor:#555.mw-parser-output .cs1-subscription span,.mw-parser-output .cs1-registration spanborder-bottom:1px dotted;cursor:help.mw-parser-output .cs1-hidden-errordisplay:none;font-size:100%.mw-parser-output .cs1-visible-errorfont-size:100%.mw-parser-output .cs1-subscription,.mw-parser-output .cs1-registration,.mw-parser-output .cs1-formatfont-size:95%.mw-parser-output .cs1-kern-left,.mw-parser-output .cs1-kern-wl-leftpadding-left:0.2em.mw-parser-output .cs1-kern-right,.mw-parser-output .cs1-kern-wl-rightpadding-right:0.2em

[2] Bühlmann, Peter; van de Geer, Sara (2011). Theory for ℓ1/ℓ2-penalty procedures. Berlin, Heidelberg: Springer Berlin Heidelberg. pp. 249–291. doi:10.1007/978-3-642-20192-9_8. ISBN 9783642201912.

[3] Bishop, Christopher (2006). Pattern Recognition and Machine Learning. New York: Christopher. ISBN 9780387310732.

[4] Natarajan, B. K. (1995). "Sparse Approximate Solutions to Linear Systems". SIAM Journal on Computing. 24 (2): 227–234. doi:10.1137/s0097539792240406. ISSN 0097-5397.

[5] Bishop, Christopher M (2016-08-23). Pattern Recognition and Machine Learning (به English). New York: Springer New York. p. 30. ISBN 9781493938438. نگهداری یادکرد:تاریخ و سال (link) نگهداری یادکرد:زبان ناشناخته (link)

[:1-6] Robert, Christian (2014-04-03). "Machine Learning, a Probabilistic Perspective". CHANCE. 27 (2): 62–63. doi:10.1080/09332480.2014.914768. ISSN 0933-2480.

[:12-7] Robert, Christian (2014-04-03). "Machine Learning, a Probabilistic Perspective". CHANCE. 27 (2): 62–63. doi:10.1080/09332480.2014.914768. ISSN 0933-2480.

[:13-8] ۸٫۰^۸٫۱ Robert, Christian (2014-04-03). "Machine Learning, a Probabilistic Perspective". CHANCE. 27 (2): 62–63. doi:10.1080/09332480.2014.914768. ISSN 0933-2480.

搜尋此網誌

Dfrnhjy

رگرسیون لجستیک

محتویات

برآورد پارامترهای بهینه[ویرایش]

تنظیم مدل (Regularization)[ویرایش]

تفسیر احتمالی تنظیم مدل[ویرایش]

جستارهای وابسته[ویرایش]

منابع[ویرایش]

منوی ناوبری

ابزارهای شخصی

فضاهای نام

گویش‌ها

بازدیدها

بیشتر

جستجو

بازدید محتوا

همکاری

نسخه‌برداری

ابزارها

به زبان‌های دیگر

Popular posts from this blog

تحلیل رگرسیون
بخشی از مجموعه مباحث دربارهٔ آمار

مدل‌ها
رگرسیون خطی رگرسیون ساده خطی ‏(en)‏ رگرسیون چندجمله‌ای ‏(en)‏ رگرسیون چندمتغیره
مدل خطی تعمیم‌یافته انتخاب گسسته ‏(en)‏ رگرسیون لجستیک لوجیت چندجمله‌ای ‏(en)‏ لوجیت آمیخته ‏(en)‏ مدل پروبیت ‏(en)‏ پروبیت چندجمله‌ای ‏(en)‏ لوجیت مرتب ‏(en)‏ پروبیت مرتب ‏(en)‏ رگرسیون پواسون
مدل چندسطحی ‏(en)‏ مدل اثرهای ثابت ‏(en)‏ مدل اثرهای تصادفی ‏(en)‏ مدل آمیخته ‏(en)‏
رگرسیون غیرخطی ‏(en)‏ رگرسیون غیرپارامتریک ‏(en)‏ رگرسیون نیمه‌پارامتریک ‏(en)‏ رگرسیون باثبات رگرسیون چندک ‏(en)‏ رگرسیون ایزوتونیک ‏(en)‏ رگرسیون مولفه اصلی ‏(en)‏ رگرسیون کمترین زاویه ‏(en)‏ رگرسیون موضعی ‏(en)‏ رگرسیون مقطع ‏(en)‏
مدل خطا در متغیرها ‏(en)‏
تخمین
کمترین مربعات کمترین مربعات خطی ‏(en)‏ کمترین مربعات غیرخطی ‏(en)‏
حداقل مربعات معمولی حداقل مربعات وزن‌دار ‏(en)‏ روش تعمیم‌یافته کمترین مربعات
رگرسیون پاره‌ای کمتری مربعات ‏(en)‏ مجموع کمترین مربعات ‏(en)‏ کمترین مربعات نامنفی ‏(en)‏ تنظیم تیخونوف ‏(en)‏ کمترین مربعات منظم ‏(en)‏
کمترین انحرافات مطلق ‏(en)‏ کمترین مربعات بازوزن‌داده مکرر ‏(en)‏ رگرسیون خطی بیزی ‏(en)‏ رگرسیون چندمتغیره خطی بیزی ‏(en)‏
پیش‌زمینه
اعتبارسنجی مدل رگرسیون ‏(en)‏ پاسخ میانگین و پیش‌بینی‌شده ‏(en)‏ خطاها و باقی‌مانده‌ها در آمار ‏(en)‏ نیکویی برازش باقی‌مانده استودنت‌شده ‏(en)‏ قضیه گوس-مارکف
درگاه آمار
ن ب و