رگرسیون لجستیک محتویات برآورد پارامترهای بهینه[ویرایش] تنظیم مدل (Regularization)[ویرایش] جستارهای وابسته[ویرایش] منابع[ویرایش] منوی ناوبریو"Statistics for High-Dimensional Data"10.1007/978-3-642-20192-90172-7397Theory for ℓ1/ℓ2-penalty procedures10.1007/978-3-642-20192-9_8Pattern Recognition and Machine Learning"Sparse Approximate Solutions to Linear Systems"10.1137/s00975397922404060097-5397Pattern Recognition and Machine Learning"Machine Learning, a Probabilistic Perspective"10.1080/09332480.2014.9147680933-2480"Machine Learning, a Probabilistic Perspective"10.1080/09332480.2014.9147680933-2480"Machine Learning, a Probabilistic Perspective"10.1080/09332480.2014.9147680933-2480ووگسترش آن
میانگینمیانگین حسابیمیانگین هندسیمیانگین همسازمیانهمددامنهانحراف معیارضریب تغییراتصدکدامنه بین چارکیواریانسچولگیکشیدگیگشتاورال-گشتاوردادههای گروهبندیشدهتوزیع فراوانیجدول پیشایندینمودار میلهایدونمودارهنمودار جعبهاینمودار کنترلهمبستگینگارنمودار جنگلیبافتنگارنمودار Q-Qنمودار توالینمودار پراکنشنمودار ساقه و برگنمودار راداریاندازه تأثیرخطای استانداردتوان آماریتعیین اندازه نمونهطراحی آزمایشآزمایش تصادفیانتساب تصادفیتکرار آزمایشبلوکبندیآزمایش عاملیطراحی بهینهتوزیع نمونهگیریآماره بسندهفراتحلیلآماره ترتیبیآماره کاوشیمقدار رکوردکامل بودنخانواده نماییآزمون جایگشتیآزمون تصادفیدنتوزیع نمونهایبوتاسترپینگآماره Uکاراییآمار باثباتاحتمال بیزیاحتمال پیشیناحتمال پسینبازه مورد قبولعامل بیزبرآوردگر بیزیبرآوردگر بیشینهگر احتمال پسینضریب همبستگی پیرسونهمبستگی جزئیاختلاطضریب تشخیصرگرسیون ساده خطی(en)کمینه مربعات خطیمدل خطی عمومی(en)رگرسیون خطی بیزی(en)خانواده نماییرگرسیون لجستیکرگرسیون دوجملهای(en)پواسونکاپای کوهنجدول پیشایندیمدل گرافیرگرسیون پواسونآزمون مکنمارتجزیهتخمین روندفرایند ماناتصحیح فصلیبودنهموارسازی نمایی(en)همجمعیعلیت گرانجرآماره Q(en)آماره دوربین-واتسون(en)خودهمبستگیتابع خودهمبستگی جزئی(en)تابع خودهمبستگی تقاطعی(en)آرمامدل آریماگارچاتورگرسیو برداریتخمین طیفیتحلیل فوریهموجکتابع بقا(en)برآوردگر کاپلان-مهیرآزمون لگرتبهای(en)نرخ خرابیمدل خطرهای متناسب(en)مدل زمان خرابی شتابیده(en)بیوانفورماتیکزیستسنجشیکارآزمایی بالینیمطالعاتهمهگیرشناسیآمار پزشکیآکچوئریسرشماریآمار جرم(en)آمار جمعیتشناسی(en)اقتصادسنجیآمار ملی(en)آمار رسمی(en)جامعه آماریروانسنجی
رگرسیون لجستیکپیشگوییتحلیل رگرسیوندستهبندی دادهمدل خطی تعمیمیافته
انگلیسیرگرسیونلوجیترگرسیون خطیرگرسیون خطیبرآورد درست نمایی بیشینهبیشبرازشبیشبرازشتابع هزینهتابع هزینهتابع هزینهتابع هزینهتابع هزینهتابع هزینه
رگرسیون لجستیک
پرش به ناوبری
پرش به جستجو
| بخشی از مجموعه مباحث دربارهٔ آمار |
| تحلیل رگرسیون |
|---|
مدلها |
|
|
|
|
|
تخمین |
|
|
|
|
پیشزمینه |
|
|
رگرسیون لجستیک (به انگلیسی: Logistic regression) یک مدل آماری رگرسیون برای متغیرهای وابسته دوسویی مانند بیماری یا سلامت، مرگ یا زندگی است. این مدل را میتوان به عنوان مدل خطی تعمیمیافتهای که از تابع لوجیت به عنوان تابع پیوند استفاده میکند و خطایش از توزیع چندجملهای پیروی میکند، بهحسابآورد.
منظور از دو سویی بودن، رخ داد یک واقعه تصادفی در دو موقعیت ممکنه است. به عنوان مثال خرید یا عدم خرید، ثبت نام یا عدم ثبت نام، ورشکسته شدن یا ورشکسته نشدن و … متغیرهایی هستند که فقط دارای دو موقعیت هستند و مجموع احتمال هر یک آنها در نهایت یک خواهد شد. کاربرد این روش عمدتاً در ابتدای ظهور در مورد کاربردهای پزشکی برای احتمال وقوع یک بیماری مورد استفاده قرار میگرفت. لیکن امروزه در تمام زمینههای علمی کاربرد وسیعی یافتهاست. به عنوان مثال مدیر سازمانی میخواهد بداند در مشارکت یا عدم مشارکت کارمندان کدام متغیرها نقش پیشبینی دارند؟ مدیر تبلیغاتی میخواهد بداند در خرید یا عدم خرید یک محصول یا برند چه متغیرهایی مهم هستند؟ یک مرکز تحقیقات پزشکی میخواهد بداند در مبتلا شدن به بیماری عروق کرنری قلب چه متغیرهایی نقش پیشبینیکننده دارند؟ تا با اطلاعرسانی از احتمال وقوع کاسته شود.
رگرسیون لجستیک میتواند یک مورد خاص از مدل خطی عمومی و رگرسیون خطی دیده شود. مدل رگرسیون لجستیک، بر اساس فرضهای کاملاً متفاوتی (دربارهٔ رابطه متغیرهای وابسته و مستقل) از رگرسیون خطی است. تفاوت مهم این دو مدل در دو ویژگی رگرسیون لجستیک میتواند دیده شود. اول توزیع شرطی y|x→vec x یک توزیع برنولی به جای یک توزیع گوسی است چونکه متغیر وابسته دودویی است. دوم مقادیر پیشبینی احتمالاتی است و محدود بین بازه صفر و یک و به کمک تابع توزیع لجستیک بدست میآید رگرسیون لجستیک احتمال خروجی پیشبینی میکند.
این مدل به صورت
- logit(p)=ln(p1−p)=β0+β1x1,i+⋯+βkxk,i,displaystyle operatorname logit (p)=ln left(frac p1-pright)=beta _0+beta _1x_1,i+cdots +beta _kx_k,i,
- i=1,…,n,displaystyle i=1,dots ,n,,
است که
- p=Pr(yi=1).displaystyle p=Pr(y_i=1).,
- p=Pr(yi=1|xi→;β→)=eβ0+β1x1,i+⋯+βkxk,i1+eβ0+β1x1,i+⋯+βkxk,i=11+e−(β0+β1x1,i+⋯+βkxk,i).displaystyle p=Pr(y_i=1
محتویات
۱ برآورد پارامترهای بهینه
۲ تنظیم مدل (Regularization)
۲.۱ تفسیر احتمالی تنظیم مدل
۳ جستارهای وابسته
۴ منابع
برآورد پارامترهای بهینه[ویرایش]
برای بدست آوردن پارامترهای بهینه یعنی β→=[β0,β1,⋯,βk]displaystyle vec beta =[beta _0,beta _1,cdots ,beta _k] میتوان از روش برآورد درست نمایی بیشینه (Maximum Likelihood Estimation) استفاده کرد. اگر فرض کنیم که تعداد مثالهایی که قرار است برای تخمین پارامترها استفاده کنیم ndisplaystyle n است و این مثالها را به این شکل نمایش دهیم D=(x1→,y1),⋯(xn→,yn)displaystyle D=(vec x_1,y_1),cdots (vec x_n,y_n). پارامتر بهینه پارامتری است که برآورد درست نمایی را بیشینه کند، البته برای سادگی کار برآورد لگاریتم درست نمایی را بیشینه میکنیم. لگاریتم درست نمایی داده Ddisplaystyle D برای پارامتر β→displaystyle vec beta را با L(D,β→)displaystyle L(D,vec beta ) نمایش میدهیم:
L(D,β→)=log(∏i=1nPr(yi=1|xi→;β→)yi×Pr(yi=0|xi→;β→)1−yi)=∑i=1nyi×logPr(yi=1|xi→;β→)+(1−yi)logPr(yi=0|xi→;β→)vec x_i;vec beta )^y_itimes Pr(y_i=0
اگر برای داده idisplaystyle i ام yi=1displaystyle y_i=1 باشد، هدف افزایشPr(yi=1|xi→;β→)vec x_i;vec beta right) است و اگر yidisplaystyle y_i صفر باشد هدف افرایش مقدار Pr(yi=0|xi→;β→)vec x_i;vec beta right) است. از این رو از فرمول Pr(yi=1|xi→;β→)yi×Pr(yi=0|xi→;β→)1−yivec x_i;vec beta )^y_itimes Pr(y_i=0 استفاده میکنیم که اگر yi=1displaystyle y_i=1 باشد، فرمول به ما Pr(yi=1|xi→;β→)vec x_i;vec beta right) را بدهد و اگر yi=0displaystyle y_i=0 بود به ما Pr(yi=0|xi→;β→)vec x_i;vec beta right) را بدهد.
حال برای بدست آوردن پارامتر بهینه باید β→displaystyle vec beta یی پیدا کنیم که مقدار L(D,β→)displaystyle L(D,vec beta ) را بیشینه کند. از آنجا که این تابع نسبت به β→displaystyle vec beta مقعر است حتماً یک بیشینه مطلق دارد. برای پیدا کردن جواب میتوان از روش گرادیان افزایشی از نوع تصادفی اش استفاده کرد (Stochastic Gradient Ascent). در این روش هر بار یک مثال را بصورت اتفاقی از نمونههای داده انتخاب کرده، گرادیان درست نمایی را حساب میکنیم و کمی در جهت گرادیان پارامتر را حرکت میدهیم تا به یک پارامتر جدید برسیم. گرادیان جهت موضعی بیشترین افزایش را در تابع به ما نشان میدهد، برای همین در آن جهت کمی حرکت میکنیم تا به بیشترین افزایش موضعی تابع برسیم. اینکار را آنقدر ادامه میدهیم که گرادیان به اندازه کافی به صفر نزدیک شود. بجای اینکه دادهها را بصورت تصادفی انتخاب کنیم میتوانیم به ترتیب داده شماره 1displaystyle 1تا داده شماره ndisplaystyle n را انتخاب کنیم و بعد دوباره به داده اولی برگردیم و این کار را بصورت متناوب چندین بار انجام دهیم تا به اندازه کافی گرادیان به صفر نزدیک شود. از لحاظ ریاضی این کار را میتوان به شکل پایین انجام داد، پارامتر β→displaystyle vec beta را در ابتدا بصورت تصادفی مقدار دهی میکنیم و بعد برای داده idisplaystyle iام و تمامی jdisplaystyle jها، یعنی از j=1displaystyle j=1 تا j=m+1displaystyle j=m+1 تغییر پایین را اعمال میکنیم، دراینجا αdisplaystyle alpha همان مقداریست که در جهت گرادیان هربار حرکت میکنیم و (yi−11+e−(β0+β1x1,i+⋯+βkxk,i))xi,j→displaystyle left(y_i-frac 11+e^-left(beta _0+beta _1x_1,i+cdots +beta _kx_k,iright)right)vec x_i,j مشتق جزئی داده idisplaystyle iام در بُعد jdisplaystyle jام است:
{Initializeβold→randomlyloop until convergence :fori=0ton:forj=0tom:βjnew→=βjold→+α(yi−11+e−(β0old+β1oldx1,i+⋯+βkoldxk,i))xi,j→βold=βnewdisplaystyle begincasesmboxInitialize,,vec beta ^,old,,mboxrandomly\mboxloop until convergence :\,,mboxfor,,,,i=0,,,,mboxto,,,,n:\,,,,,,mboxfor,,,,j=0,,,,mboxto,,,,m:\,,,,,,,,,,,,vec beta _j^,new=vec beta _j^,old+alpha left(y_i-frac 11+e^-left(beta _0^,old+beta _1^,oldx_1,i+cdots +beta _k^,oldx_k,iright)right)vec x_i,j\,,,,,,beta ^,old=beta ^,newendcases
تنظیم مدل (Regularization)[ویرایش]
پیچیدگی مدلهای پارامتری با تعداد پارامترهای مدل و مقادیر آنها سنجیده میشود. هرچه این پیچیدگی بیشتر باشد خطر بیشبرازش (Overfitting) برای مدل بیشتر است.[۱] پدیده بیشبرازش زمانی رخ میدهد که مدل بجای یادگیری الگوهای داده، داده را را حفظ کند و در عمل، فرایند یادگیری به خوبی انجام نمیشود. برای جلوگیری از بیشبرازش در مدلهای خطی مانند رگرسیون خطی یا رگرسیون لجستیک جریمهای به تابع هزینه اضافه میشود تا از افزایش زیاد پارامترها جلوگیری شود. تابع هزینه را در رگرسیون لجستیک با منفی لگاریتم درستنمایی تعریف میکنیم تا کمینه کردن آن به بیشینه کردن تابع درست نمایی بیانجامد. به این کار تنظیم مدل یا Regularization گفته میشود. دو راه متداول تنظیم مدلهای خطی روشهای L1displaystyle L_1 و L2displaystyle L_2 هستند.[۲] در روش L1displaystyle L_1 ضریبی از نُرمِ L1displaystyle L_1 به تابع هزینه اضافه میشود و در روش L2displaystyle L_2 ضریبی از نُرمِ L2displaystyle L_2 که همان نُرمِ اقلیدسی است به تابع هزینه اضافه میشود.
در تنظیم مدل به روش L1displaystyle L_1 تابع هزینه را به این شکل تغییر میدهیم:[۳]
Lr(D,β→)=−L(D,β→)+λ||β→||1=−∑i=1nyi×logPr(yi=1|xi→;β→)+(1−yi)logPr(yi=0|xi→;β→)+λ∑k=0m|βk|displaystyle L_r(D,vec beta )=-L(D,vec beta )+lambda
این روش تنظیم مدل که به روش لاسو (Lasso) نیز شهرت دارد باعث میشود که بسیاری از پارامترهای مدل نهائی صفر شوند و مدل به اصطلاح خلوت (Sparse) شود.[۴]
در تنظیم مدل به روش L2displaystyle L_2 تابع هزینه را به این شکل تغییر میدهیم:
Lr(D,β→)=L(D,β→)+λ||β→||22=−∑i=1nyi×logPr(yi=1|xi→;β→)+(1−yi)logPr(yi=0|xi→;β→)+λ∑k=0mβk2
در روش تنظیم از طریق L2displaystyle L_2 سعی میشود طول اقلیدسی بردار β→displaystyle vec beta کوتاه نگه داشته شود. λdisplaystyle lambda در روش L1displaystyle L_1 و L2displaystyle L_2 یک عدد مثبت است که میزان تنظیم مدل را معین میکند. هرچقدر λdisplaystyle lambda کوچکتر باشد جریمه کمتری برا بزرگی نرم بردار پارامترها یعنی β→displaystyle vec beta پرداخت میکنیم. مقدار ایدئال λdisplaystyle lambda از طریق آزمایش بر روی داده اعتبار (Validation Data) پیدا میشود.
تفسیر احتمالی تنظیم مدل[ویرایش]
اگر بجای روش درست نمایی بیشینه از روش بیشینه سازی احتمال پسین استفاده کنیم به ساختار «تنظیم مدل» یا همان regularization خواهیم رسید.[۵] اگر مجموعه داده را با Ddisplaystyle D نمایش بدهیم و پارامتری که به دنبال تخمین آن هستیم را با β→displaystyle vec beta ، احتمال پسین Pr(β→|D)displaystyle Prleft(vec beta , ، طبق قانون بیز متناسب خواهد بود با حاصلضرب درست نمایی یعنی Pr(D|β→),vec beta right) و احتمال پیشین یعنی Pr(β→)displaystyle Prleft(vec beta right):[۶]
Pr(β→|D)=Pr(D|β→)×Pr(β→)Pr(D),Dright)=frac Prleft(D,Prleft(Dright)
ازین رو
argmaxβ→Pr(β→|D)=argmaxβ→Pr(D|β→)×Pr(β→)Pr(D)=argmaxβ→Pr(D|β→)×Pr(β→)displaystyle argmax_vec beta Prleft(vec beta ,
معادله خط پیشین نشان میدهد که برای یافتن پارامتر بهینه فقط کافیست که احتمال پیشین را نیز در معادله دخیل کنیم. اگر احتمال پیشین را یک توزیع احتمال با میانگین صفر و کوواریانس τ2Idisplaystyle tau ^2I در نظر بگیریم به معادله پایین میرسیم:[۷]
argmaxβ→logPr(D|β→)=argmaxβ→log∏i=1nPr(yi|xi→;β→)Pr(β→)=argmaxβ→log(∏i=1nPr(yi=1|xi→;β→)yi×Pr(yi=0|xi→;β→)1−yi12πτexp(−||β→||22τ)),vec beta right)=argmax_vec beta ,,log prod _i=1^nPr(y_i
با ساده کردن این معادله به نتیجه پایین میرسیم:
argmaxβ→logPr(D|β→)=argmaxβ→∑i=1nyi×logPr(yi=1|xi→;β→)+(1−yi)logPr(yi=0|xi→;β→)−12τ2||β→||2−log2πτ
با تغییر علامت معادله، بیشینهسازی را به کمینهسازی تغییر میدهیم، λdisplaystyle lambda در این معادله همان 12τ2displaystyle frac 12tau ^2 است:
argmaxβ→logPr(D|β→)=argminβ→−(∑i=1nyi×logPr(yi=1|xi→;β→)+(1−yi)logPr(yi=0|xi→;β→))+λ||β→||2vec beta
همانطور که دیدیم جواب همان تنظیم مدل با نرم L2displaystyle L_2 است.
حال اگر توزیع پیشین را از نوع توزیع لاپلاس با میانگین صفر درنظر بگیریم به تنظیم مدل با نرم L1displaystyle L_1 خواهیم رسید.[۸]
از آنجا که میانگین هر دو توزیع پیشین صفر است، پیشفرض تخمین پارامتر بر این بنا شدهاست که اندازه پارامتر مورد نظر کوچک و به صفر نزدیک باشد و این پیشفرض با روند تنظیم مدل همخوانی دارد.[۸]
جستارهای وابسته[ویرایش]
- تحلیل تفکیک خطی
- پرویبت
- پرسپترون
- شبکه عصبی مصنوعی
- کاوشهای ماشینی در دادهها
- رگرسیون خطی
- رگرسیون پواسون
منابع[ویرایش]
↑ Bühlmann, Peter; van de Geer, Sara (2011). "Statistics for High-Dimensional Data". Springer Series in Statistics. doi:10.1007/978-3-642-20192-9. ISSN 0172-7397..mw-parser-output cite.citationfont-style:inherit.mw-parser-output qquotes:"""""""'""'".mw-parser-output code.cs1-codecolor:inherit;background:inherit;border:inherit;padding:inherit.mw-parser-output .cs1-lock-free abackground:url("//upload.wikimedia.org/wikipedia/commons/thumb/6/65/Lock-green.svg/9px-Lock-green.svg.png")no-repeat;background-position:right .1em center.mw-parser-output .cs1-lock-limited a,.mw-parser-output .cs1-lock-registration abackground:url("//upload.wikimedia.org/wikipedia/commons/thumb/d/d6/Lock-gray-alt-2.svg/9px-Lock-gray-alt-2.svg.png")no-repeat;background-position:right .1em center.mw-parser-output .cs1-lock-subscription abackground:url("//upload.wikimedia.org/wikipedia/commons/thumb/a/aa/Lock-red-alt-2.svg/9px-Lock-red-alt-2.svg.png")no-repeat;background-position:right .1em center.mw-parser-output div[dir=ltr] .cs1-lock-subscription a,.mw-parser-output div[dir=ltr] .cs1-lock-limited a,.mw-parser-output div[dir=ltr] .cs1-lock-registration abackground-position:left .1em center.mw-parser-output .cs1-subscription,.mw-parser-output .cs1-registrationcolor:#555.mw-parser-output .cs1-subscription span,.mw-parser-output .cs1-registration spanborder-bottom:1px dotted;cursor:help.mw-parser-output .cs1-hidden-errordisplay:none;font-size:100%.mw-parser-output .cs1-visible-errorfont-size:100%.mw-parser-output .cs1-subscription,.mw-parser-output .cs1-registration,.mw-parser-output .cs1-formatfont-size:95%.mw-parser-output .cs1-kern-left,.mw-parser-output .cs1-kern-wl-leftpadding-left:0.2em.mw-parser-output .cs1-kern-right,.mw-parser-output .cs1-kern-wl-rightpadding-right:0.2em
↑ Bühlmann, Peter; van de Geer, Sara (2011). Theory for ℓ1/ℓ2-penalty procedures. Berlin, Heidelberg: Springer Berlin Heidelberg. pp. 249–291. doi:10.1007/978-3-642-20192-9_8. ISBN 9783642201912.
↑ Bishop, Christopher (2006). Pattern Recognition and Machine Learning. New York: Christopher. ISBN 9780387310732.
↑ Natarajan, B. K. (1995). "Sparse Approximate Solutions to Linear Systems". SIAM Journal on Computing. 24 (2): 227–234. doi:10.1137/s0097539792240406. ISSN 0097-5397.
↑ Bishop, Christopher M (2016-08-23). Pattern Recognition and Machine Learning (به English). New York: Springer New York. p. 30. ISBN 9781493938438. نگهداری یادکرد:تاریخ و سال (link) نگهداری یادکرد:زبان ناشناخته (link)
↑ Robert, Christian (2014-04-03). "Machine Learning, a Probabilistic Perspective". CHANCE. 27 (2): 62–63. doi:10.1080/09332480.2014.914768. ISSN 0933-2480.
↑ Robert, Christian (2014-04-03). "Machine Learning, a Probabilistic Perspective". CHANCE. 27 (2): 62–63. doi:10.1080/09332480.2014.914768. ISSN 0933-2480.
↑ ۸٫۰۸٫۱ Robert, Christian (2014-04-03). "Machine Learning, a Probabilistic Perspective". CHANCE. 27 (2): 62–63. doi:10.1080/09332480.2014.914768. ISSN 0933-2480.
- ویکیپدیای انگلیسی
| این یک مقالهٔ خرد پیرامون ریاضیات است. با گسترش آن به ویکیپدیا کمک کنید. |
ردهها:
- رگرسیون لجستیک
- پیشگویی
- تحلیل رگرسیون
- دستهبندی داده
- مدل خطی تعمیمیافته
(window.RLQ=window.RLQ||[]).push(function()mw.config.set("wgPageParseReport":"limitreport":"cputime":"0.724","walltime":"1.108","ppvisitednodes":"value":5044,"limit":1000000,"ppgeneratednodes":"value":0,"limit":1500000,"postexpandincludesize":"value":461698,"limit":2097152,"templateargumentsize":"value":45449,"limit":2097152,"expansiondepth":"value":16,"limit":40,"expensivefunctioncount":"value":72,"limit":500,"unstrip-depth":"value":1,"limit":20,"unstrip-size":"value":28515,"limit":5000000,"entityaccesscount":"value":2,"limit":400,"timingprofile":["100.00% 637.013 1 -total"," 41.20% 262.477 1 الگو:پانویس"," 41.02% 261.333 17 الگو:Navbox"," 29.63% 188.745 5 الگو:Cite_journal"," 20.99% 133.679 1 الگو:تحلیل_رگرسیون"," 20.35% 129.649 1 الگو:Sidebar"," 17.28% 110.080 1 الگو:آمار"," 16.49% 105.024 1 الگو:Navbox_with_collapsible_groups"," 15.71% 100.071 72 الگو:پم"," 8.82% 56.206 1 الگو:انگلیسی"],"scribunto":"limitreport-timeusage":"value":"0.246","limit":"10.000","limitreport-memusage":"value":5248692,"limit":52428800,"cachereport":"origin":"mw1302","timestamp":"20190425221816","ttl":2592000,"transientcontent":false);mw.config.set("wgBackendResponseTime":128,"wgHostname":"mw1267"););