آموزش درک داده ها با آمار در یادگیری ماشین

4 سال پیش
آموزش درک داده ها با آمار در یادگیری ماشین
امتیاز دهید post

آموزش درک داده ها با آمار در یادگیری ماشین

در این درس از مجموعه آموزش برنامه نویسی سایت سورس باران، به آموزش درک داده ها با آمار در یادگیری ماشین خواهیم پرداخت.

پیشنهاد ویژه : پکیج آموزش طراحی وب سایت با پایتون و جنگو

در حالی که با پروژه های یادگیری ماشین کار می کنیم، معمولاً دو بخش مهم به نام ریاضیات و داده ها را نادیده می گیریم. به این دلیل است که ما می دانیم که ML یک رویکرد داده محور است و مدل ML ما فقط به عنوان داده های خوب یا بد نتایج داده شده در اختیار ما قرار می دهد.

در درس قبل، ما در مورد چگونگی بارگذاری داده های CSV در پروژه ML خود بحث کردیم ، اما بهتر است قبل از بارگذاری داده ها، داده ها را درک کنیم. ما می توانیم داده ها را از دو طریق ، با آمار و با تجسم درک کنیم.

در این درس، با کمک دستورالعمل های پایتون ، می خواهیم داده های ML را با آمار درک کنیم.

نگاهی به داده های خام

اولین دستورالعمل این است که به داده های خام خود نگاه کنید. مهم است که به داده های خام توجه شود زیرا بینشی که پس از بررسی داده های خام به دست خواهیم آورد ، شانس ما را برای پیش پردازش بهتر و همچنین کار با داده ها برای پروژه های ML افزایش می دهد.

در زیر اسکریپت پایتون با استفاده از تابع head() Pandas DataFrame در مجموعه داده های دیابت Pima Indians برای بررسی 50 ردیف اول برای درک بهتر از آن پیاده سازی شده است –

مثال

 

خروجی

 

ما می توانیم از خروجی فوق مشاهده کنیم که ستون اول شماره ردیف را می دهد که می تواند برای ارجاع به یک مشاهده خاص بسیار مفید باشد.

بررسی ابعاد داده ها

این همیشه یک روش خوب است که بدانیم چه مقدار داده از نظر ردیف و ستون برای پروژه ML خود داریم. دلایل وجود دارد –

  • فرض کنید اگر تعداد زیادی ردیف و ستون داشته باشیم، اجرای الگوریتم و آموزش مدل زمان زیادی طول می کشد.
  • فرض کنید اگر ردیف و ستون خیلی کمتری داشته باشیم، داده های کافی برای آموزش مناسب مدل نداریم.

در زیر یک اسکریپت پایتون با چاپ ویژگی شکل روی Pandas Data Frame پیاده سازی شده است. ما می خواهیم آن را در مجموعه داده های iris برای بدست آوردن تعداد کل ردیف ها و ستون ها در آن پیاده سازی کنیم.

مثال

 

خروجی

 

 

ما می توانیم به راحتی از خروجی مشاهده کنیم که مجموعه داده های عنبیه ، که قصد استفاده از آن را داریم ، دارای 150 ردیف و 4 ستون است.

دریافت ویژگی هر نوع داده 

این یک روش خوب دیگر است که ویژگی هر نوع داده را بدانید. دلیل این امر این است که ، در صورت نیاز ، گاهی اوقات ممکن است نیاز به تبدیل یک نوع داده به نوع دیگر داشته باشیم. به عنوان مثال، برای نمایش مقادیر دسته ای یا ترتیبی ممکن است لازم باشد رشته را به نقطه شناور یا int تبدیل کنیم. با مشاهده داده های خام می توانیم در مورد نوع داده صفت ایده داشته باشیم ، اما روش دیگر استفاده از ویژگی dtypes Pandas DataFrame است. با کمک ویژگی dtypes می توانیم هر نوع ویژگی را نوع داده طبقه بندی کنیم. این را می توان با کمک دنبال کردن اسکریپت پایتون درک کرد –

مثال

 

خروجی

 

از خروجی فوق می توانیم به راحتی نوع داده های هر ویژگی را بدست آوریم.

خلاصه آماری داده ها

ما دستور پایتون را برای بدست آوردن شکل، یعنی تعداد ردیف ها و ستون ها ، در مورد داده ها بحث کرده ایم ، اما بارها لازم است که خلاصه های خارج از آن شکل داده ها را مرور کنیم. این کار با کمک تابع توصیف ()Pandas DataFrame ،describe انجام می شود که علاوه بر این 8 ویژگی آماری زیر از هر ویژگی داده را فراهم می کند –

  • شمردن
  • میانگین
  • انحراف معیار
  • حداقل مقدار
  • حداکثر مقدار
  • 25٪
  • متوسط ​​؛ 50٪
  • 75٪

مثال

 

خروجی

 

از خروجی فوق، می توان خلاصه آماری داده های مجموعه داده های دیابت Pima Indian به همراه شکل داده ها را مشاهده کرد.

مرور توزیع کلاس

آمار توزیع کلاس در موارد طبقه بندی مفید است که ما باید تعادل مقادیر کلاس را بدانیم. دانستن توزیع مقدار کلاس از اهمیت زیادی برخوردار است زیرا اگر توزیع کلاس بسیار ناموزونی داشته باشیم یعنی یک کلاس مشاهدات بیشتری نسبت به کلاس دیگر داشته باشد ، در این صورت ممکن است در مرحله آماده سازی داده های پروژه ML به مدیریت خاص نیاز داشته باشد. ما می توانیم به راحتی با کمک Pandas DataFrame توزیع کلاس را در پایتون بدست آوریم.

مثال

 

خروجی

 

از خروجی فوق به وضوح مشاهده می شود که تعداد مشاهدات با کلاس 0 تقریباً دو برابر تعداد مشاهدات با کلاس 1 است.

بررسی همبستگی بین ویژگی ها

رابطه بین دو متغیر را همبستگی می نامند. در آمار، متداول ترین روش برای محاسبه همبستگی ضریب همبستگی پیرسون است. این می تواند سه مقدار به شرح زیر داشته باشد –

  • مقدار ضریب = 1 – این نشان دهنده همبستگی کامل مثبت بین متغیرها است.
  • مقدار ضریب = -1 – این نشان دهنده ارتباط منفی کامل بین متغیرها است.
  • مقدار ضریب = 0 – این هیچ ارتباطی بین متغیرها ندارد.

همیشه برای ما خوب است که همبستگی های دوتایی ویژگی ها را در مجموعه داده خود قبل از استفاده در پروژه ML بررسی کنیم زیرا برخی از الگوریتم های یادگیری ماشین مانند رگرسیون خطی و رگرسیون لجستیک اگر ویژگی های بسیار همبستگی داشته باشیم عملکرد ضعیفی دارند. در پایتون ، ما می توانیم به راحتی یک ماتریس همبستگی از ویژگیهای مجموعه داده را با کمک تابع ()corr در Pandas DataFrame محاسبه کنیم.

مثال

 

 

خروجی

 

ماتریس موجود در خروجی فوق همبستگی بین همه جفت های ویژگی را در مجموعه داده ارائه می دهد.

بازبینی Skew توزیع ویژگی

Skew ممکن است به توزیعی گفته شود که گاوسی فرض شده باشد اما به نظر می رسد در یک جهت یا جهت دیگر، یا به سمت چپ یا راست تحریف شده باشد. بازبینی خصوصیات یکی از مهمترین وظایف به دلایل زیر است –

وجود انحراف در داده ها نیاز به اصلاح در مرحله آماده سازی داده ها دارد تا بتوانیم دقت بیشتری را از مدل خود بدست آوریم.

بیشتر الگوریتم های ML فرض می کنند که داده ها دارای توزیع گاوسی هستند ، یعنی از داده های منحنی زنگ نرمال هستند.

در پایتون ، ما می توانیم به راحتی کجی هر ویژگی را با استفاده از تابع ()skew  در Pandas DataFrame محاسبه کنیم.

 

مثال

 

خروجی

 

از خروجی فوق می توان انحراف مثبت یا منفی را مشاهده کرد. اگر مقدار نزدیک به صفر باشد، انحراف کمتری نشان می دهد.

 

منبع.

لیست جلسات قبل آموزش یادگیری ماشین با پایتون 

  1. آموزش یادگیری ماشین با پایتون
  2.  مبانی یادگیری ماشین با پایتون  
  3. آموزش اکوسیستم یادگیری ماشین با پایتون 
  4. آموزش متدها در یادگیری ماشین با پایتون 
  5. آموزش بارگیری داده ها برای پروژه های یادگیری ماشین
امتیاز دهید post
0
برچسب ها :
نویسنده مطلب saber

دیدگاه شما

بدون دیدگاه