آموزش آماده سازی داده ها در یادگیری ماشین با پایتون

4 سال پیش

امتیاز دهید post

آموزش آماده سازی داده ها در یادگیری ماشین با پایتون

در این درس از مجموعه آموزش برنامه نویسی سایت سورس باران، به آموزش آماده سازی داده ها در یادگیری ماشین با پایتون خواهیم پرداخت.

پیشنهاد ویژه : آموزش طراحی وب سایت با پایتون

الگوریتم های یادگیری ماشین کاملاً به داده ها وابسته هستند زیرا مهمترین جنبه ای است که آموزش مدل را امکان پذیر می کند. از طرف دیگر ، اگر نتوانیم از داده های یاد شده مطلع شویم ، قبل از تغذیه آن با الگوریتم های ML ، دستگاه بی فایده خواهد بود. به عبارت ساده ، ما همیشه برای حل مسئله ای که می خواهیم ماشین حل کند ، باید داده های صحیح یعنی داده ها را در مقیاس ، قالب صحیح و حاوی ویژگی های معنی دار تغذیه کنیم.

این امر باعث می شود که آماده سازی داده ها مهمترین مرحله در فرآیند ML باشد. آماده سازی داده ها ممکن است روشی باشد که مجموعه داده ما را برای فرآیند ML مناسبتر کند.

چرا پیش پردازش داده ها؟

پس از انتخاب داده های خام برای آموزش ML ، مهمترین کار پیش پردازش داده ها است. به معنای گسترده ، پیش پردازش داده ها داده های انتخاب شده را به شکلی تبدیل می کند که می توانیم با آن کار کنیم یا می توانیم الگوریتم های ML را تغذیه کنیم. ما همیشه باید داده های خود را پیش پردازش کنیم تا بتواند مطابق انتظار الگوریتم یادگیری ماشین باشد.

تکنیک های پیش پردازش داده ها در آماده سازی داده ها در یادگیری ماشین با پایتون

ما تکنیک های پیش پردازش داده زیر را داریم که می تواند در مجموعه داده ها برای تولید داده ها برای الگوریتم های ML استفاده شود –

مقیاس گذاری

به احتمال زیاد مجموعه داده های ما از ویژگی هایی با مقیاس متفاوت تشکیل شده است، اما ما نمی توانیم چنین داده هایی را به الگوریتم ML ارائه دهیم از این رو نیاز به تجدید قوا دارد. جمع آوری اطلاعات اطمینان حاصل می کند که ویژگی ها در یک مقیاس هستند. به طور کلی ، ویژگی ها در محدوده 0 و 1 تغییر می یابند. الگوریتم های ML مانند نزول گرادیان و k-Nearest Neighbours به داده های مقیاس بندی شده نیاز دارند. ما می توانیم داده ها را با کمک کلاس MinMaxScaler از کتابخانه scikit-learn Python مجدداً جمع آوری کنیم.

مثال

در این مثال ما داده های مجموعه داده های دیابت Pima Indians را که قبلاً استفاده کردیم ، مجدداً جمع خواهیم کرد. ابتدا داده های CSV بارگذاری می شوند (همانطور که در فصل های قبلی انجام شد) و سپس با کمک کلاس MinMaxScaler ، در محدوده 0 و 1 مجدداً مجدداً ذخیره می شوند.

چند خط اول اسکریپت زیر همان است که در هنگام بارگیری داده های CSV در فصل های قبلی نوشتیم.

from pandas import read_csv
from numpy import set_printoptions
from sklearn import preprocessing
path = r'C:\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(path, names=names)
array = dataframe.values

from pandas import read_csv

from numpy import set_printoptions

from sklearn import preprocessing

path = r'C:\pima-indians-diabetes.csv'

names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

dataframe = read_csv(path, names=names)

array = dataframe.values

اکنون، ما می توانیم از کلاس MinMaxScaler برای بازنشانی داده ها در محدوده 0 و 1 استفاده کنیم.

data_scaler = preprocessing.MinMaxScaler(feature_range=(0,1))
data_rescaled = data_scaler.fit_transform(array)

1 2	data_scaler = preprocessing.MinMaxScaler(feature_range=(0,1)) data_rescaled = data_scaler.fit_transform(array)

ما همچنین می توانیم داده ها را برای خروجی مطابق با انتخاب خود جمع بندی کنیم. در اینجا ، ما دقت را روی 1 تنظیم می کنیم و 10 ردیف اول را در خروجی نشان می دهیم.

set_printoptions(precision=1)
print ("\nScaled data:\n", data_rescaled[0:10])

1 2	set_printoptions(precision=1) print ("\nScaled data:\n", data_rescaled[0:10])

خروجی

Scaled data:
[
   [0.4 0.7 0.6 0.4 0.  0.5 0.2 0.5 1. ]
   [0.1 0.4 0.5 0.3 0.  0.4 0.1 0.2 0. ]
   [0.5 0.9 0.5 0.  0.  0.3 0.3 0.2 1. ]
   [0.1 0.4 0.5 0.2 0.1 0.4 0.  0.  0. ]
   [0.  0.7 0.3 0.4 0.2 0.6 0.9 0.2 1. ]
   [0.3 0.6 0.6 0.  0.  0.4 0.1 0.2 0. ]
   [0.2 0.4 0.4 0.3 0.1 0.5 0.1 0.1 1. ]
   [0.6 0.6 0.  0.  0.  0.5 0.  0.1 0. ]
   [0.1 1.  0.6 0.5 0.6 0.5 0.  0.5 1. ]
   [0.5 0.6 0.8 0.  0.  0.  0.1 0.6 1. ]
]

Scaled data:

[

[0.4 0.7 0.6 0.4 0. 0.5 0.2 0.5 1. ]

[0.1 0.4 0.5 0.3 0. 0.4 0.1 0.2 0. ]

[0.5 0.9 0.5 0. 0. 0.3 0.3 0.2 1. ]

[0.1 0.4 0.5 0.2 0.1 0.4 0. 0. 0. ]

[0. 0.7 0.3 0.4 0.2 0.6 0.9 0.2 1. ]

[0.3 0.6 0.6 0. 0. 0.4 0.1 0.2 0. ]

[0.2 0.4 0.4 0.3 0.1 0.5 0.1 0.1 1. ]

[0.6 0.6 0. 0. 0. 0.5 0. 0.1 0. ]

[0.1 1. 0.6 0.5 0.6 0.5 0. 0.5 1. ]

[0.5 0.6 0.8 0. 0. 0. 0.1 0.6 1. ]

]

از خروجی فوق، تمام داده ها در محدوده 0 و 1 مجدداً جمع بندی شدند.

نرمال سازی

یکی دیگر از روش های مفید پیش پردازش داده ها نرمال سازی است. این برای جمع آوری مجدد هر ردیف از داده ها با طول 1 استفاده می شود. این به طور عمده در مجموعه داده های Sparse که صفرهای زیادی داریم مفید است. ما می توانیم داده ها را با کمک کلاس Normalizer از کتابخانه Python-scikit-learn دوباره جمع آوری کنیم.

انواع نرمال سازی

در یادگیری ماشین، دو نوع تکنیک پیش پردازش عادی به شرح زیر وجود دارد –

نرمال سازی L1

این ممکن است به عنوان تکنیک نرمال سازی تعریف شود که مقادیر داده را به گونه ای اصلاح کند که در هر سطر مجموع مقادیر مطلق همیشه تا 1 باشد. همچنین به آن انحراف مطلق مطلق نیز گفته می شود.

مثال

در این مثال ، از روش L1 Normalize برای عادی سازی داده های مجموعه داده های دیابت Pima Indians که قبلاً استفاده کردیم ، استفاده می کنیم. ابتدا داده های CSV بارگیری می شود و سپس با کمک کلاس Normalizer نرمال می شود.

چند خط اول اسکریپت زیر همان است که در هنگام بارگیری داده های CSV در درس های قبلی نوشتیم.

from pandas import read_csv
from numpy import set_printoptions
from sklearn.preprocessing import Normalizer
path = r'C:\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv (path, names=names)
array = dataframe.values

from pandas import read_csv

from numpy import set_printoptions

from sklearn.preprocessing import Normalizer

path = r'C:\pima-indians-diabetes.csv'

names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

dataframe = read_csv (path, names=names)

array = dataframe.values

اکنون می توانیم از کلاس Normalizer با L1 برای نرمال سازی داده ها استفاده کنیم.

Data_normalizer = Normalizer(norm='l1').fit(array)
Data_normalized = Data_normalizer.transform(array)

1 2	Data_normalizer = Normalizer(norm='l1').fit(array) Data_normalized = Data_normalizer.transform(array)

ما همچنین می توانیم داده ها را برای خروجی مطابق با انتخاب خود جمع بندی کنیم. در اینجا ، ما دقت را روی 2 تنظیم می کنیم و 3 ردیف اول را در خروجی نشان می دهیم.

set_printoptions(precision=2)
print ("\nNormalized data:\n", Data_normalized [0:3])

1 2	set_printoptions(precision=2) print ("\nNormalized data:\n", Data_normalized [0:3])

خروجی

Normalized data:
[
   [0.02 0.43 0.21 0.1  0. 0.1  0. 0.14 0. ]
   [0.   0.36 0.28 0.12 0. 0.11 0. 0.13 0. ]
   [0.03 0.59 0.21 0.   0. 0.07 0. 0.1  0. ]
]

Normalized data:

[

[0.02 0.43 0.21 0.1 0. 0.1 0. 0.14 0. ]

[0. 0.36 0.28 0.12 0. 0.11 0. 0.13 0. ]

[0.03 0.59 0.21 0. 0. 0.07 0. 0.1 0. ]

]

نرمال سازی L2

این ممکن است به عنوان تکنیک نرمال سازی تعریف شود که مقادیر مجموعه داده را به گونه ای اصلاح کند که در هر سطر مجموع مربع ها همیشه تا 1 باشد. همچنین به آن حداقل مربعات گفته می شود.

مثال

در این مثال ، ما از روش L2 Normalization برای نرمال سازی داده های مجموعه داده های دیابت Pima Indians که قبلاً استفاده کردیم ، استفاده می کنیم. ابتدا داده های CSV بارگذاری می شوند (همانطور که در فصل های قبلی انجام شده است) و سپس با کمک کلاس Normalizer نرمال می شوند.

چند خط اول اسکریپت زیر همان است که در هنگام بارگیری داده های CSV در فصل های قبلی نوشتیم.

from pandas import read_csv
from numpy import set_printoptions
from sklearn.preprocessing import Normalizer
path = r'C:\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv (path, names=names)
array = dataframe.values

from pandas import read_csv

from numpy import set_printoptions

from sklearn.preprocessing import Normalizer

path = r'C:\pima-indians-diabetes.csv'

names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

dataframe = read_csv (path, names=names)

array = dataframe.values

اکنون می توانیم از کلاس Normalizer با L1 برای نرمال سازی داده ها استفاده کنیم.

Data_normalizer = Normalizer(norm='l2').fit(array)
Data_normalized = Data_normalizer.transform(array)

1 2	Data_normalizer = Normalizer(norm='l2').fit(array) Data_normalized = Data_normalizer.transform(array)

ما همچنین می توانیم داده ها را برای خروجی مطابق با انتخاب خود جمع بندی کنیم. در اینجا ما دقت را روی 2 تنظیم می کنیم و 3 ردیف اول را در خروجی نشان می دهیم.

set_printoptions(precision=2)
print ("\nNormalized data:\n", Data_normalized [0:3])

1 2	set_printoptions(precision=2) print ("\nNormalized data:\n", Data_normalized [0:3])

خروجی

Normalized data:
[
   [0.03 0.83 0.4  0.2  0. 0.19 0. 0.28 0.01]
   [0.01 0.72 0.56 0.24 0. 0.22 0. 0.26 0.  ]
   [0.04 0.92 0.32 0.   0. 0.12 0. 0.16 0.01]
]

Normalized data:

[

[0.03 0.83 0.4 0.2 0. 0.19 0. 0.28 0.01]

[0.01 0.72 0.56 0.24 0. 0.22 0. 0.26 0. ]

[0.04 0.92 0.32 0. 0. 0.12 0. 0.16 0.01]

]

باینری سازی

همانطور که از نامش پیداست ، این تکنیکی است که به کمک آن می توانیم داده های خود را باینری کنیم. برای باینری سازی داده های خود می توانیم از یک آستانه باینری استفاده کنیم. مقادیر بالای آن مقدار آستانه به 1 و زیر آن آستانه به 0 تبدیل می شود. به عنوان مثال ، اگر مقدار آستانه = 0/5 را انتخاب کنیم ، سپس مقدار مجموعه داده بالای آن 1 و زیر آن 0 می شود. یعنی چرا می توانیم آن را باینری سازی داده ها یا آستانه گذاری داده ها بنامیم. این تکنیک زمانی مفید است که احتمالاتی را در مجموعه داده خود داشته باشیم و بخواهیم آنها را به مقادیر واضح تبدیل کنیم.

ما می توانیم داده ها را با کمک کلاس Binarizer از کتابخانه Python-scikit- یاد بگیریم.

مثال

در این مثال، ما داده های مجموعه داده های دیابت Pima Indians را که قبلاً استفاده کرده بودیم ، دوباره جمع آوری خواهیم کرد. ابتدا داده های CSV بارگیری می شود و سپس با کمک کلاس Binarizer بسته به مقدار آستانه به مقادیر باینری یعنی 0 و 1 تبدیل می شود. ما 0.5 را به عنوان مقدار آستانه در نظر می گیریم.

چند خط اول اسکریپت زیر همان است که در هنگام بارگیری داده های CSV در فصل های قبلی نوشتیم.

from pandas import read_csv
from sklearn.preprocessing import Binarizer
path = r'C:\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(path, names=names)
array = dataframe.values

from pandas import read_csv

from sklearn.preprocessing import Binarizer

path = r'C:\pima-indians-diabetes.csv'

names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

dataframe = read_csv(path, names=names)

array = dataframe.values

اکنون می توانیم از کلاس Binarize برای تبدیل داده ها به مقادیر باینری استفاده کنیم.

binarizer = Binarizer(threshold=0.5).fit(array)
Data_binarized = binarizer.transform(array)

1 2	binarizer = Binarizer(threshold=0.5).fit(array) Data_binarized = binarizer.transform(array)

در اینجا ، ما 5 ردیف اول را در خروجی نشان می دهیم.

print ("\nBinary data:\n", Data_binarized [0:5])

1	print ("\nBinary data:\n", Data_binarized [0:5])

خروجی

Binary data:
[
   [1. 1. 1. 1. 0. 1. 1. 1. 1.]
   [1. 1. 1. 1. 0. 1. 0. 1. 0.]
   [1. 1. 1. 0. 0. 1. 1. 1. 1.]
   [1. 1. 1. 1. 1. 1. 0. 1. 0.]
   [0. 1. 1. 1. 1. 1. 1. 1. 1.]
]

Binary data:

[

[1. 1. 1. 1. 0. 1. 1. 1. 1.]

[1. 1. 1. 1. 0. 1. 0. 1. 0.]

[1. 1. 1. 0. 0. 1. 1. 1. 1.]

[1. 1. 1. 1. 1. 1. 0. 1. 0.]

[0. 1. 1. 1. 1. 1. 1. 1. 1.]

]

استاندارد سازی

یکی دیگر از تکنیک های مفید پیش پردازش داده ها که اساساً برای تبدیل ویژگی های داده با توزیع گوسی استفاده می شود. این میانگین و SD (انحراف معیار) را به یک توزیع استاندارد گاوسی با میانگین 0 و SD 1 تغییر می دهد. این روش در الگوریتم های ML مانند رگرسیون خطی ، رگرسیون لجستیک که توزیع گاوسین را در مجموعه داده ورودی فرض می کند و تولید بهتر است ، مفید است. نتایج با داده های مجدد ما می توانیم داده ها (میانگین = 0 و SD = 1) را با کمک کلاس StandardScaler کتابخانه پایتون scikit-learn – استاندارد کنیم.

مثال

در این مثال ما داده های مجموعه داده های دیابت Pima Indians را که قبلاً استفاده کردیم ، مجدداً جمع خواهیم کرد. ابتدا داده های CSV بارگیری می شود و سپس با کمک کلاس StandardScaler به توزیع گاوسی با میانگین = 0 و SD = 1 تبدیل می شود.

چند خط اول اسکریپت زیر همان است که در هنگام بارگیری داده های CSV در فصل های قبلی نوشتیم.

from sklearn.preprocessing import StandardScaler
from pandas import read_csv
from numpy import set_printoptions
path = r'C:\pima-indians-diabetes.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(path, names=names)
array = dataframe.values

from sklearn.preprocessing import StandardScaler

from pandas import read_csv

from numpy import set_printoptions

path = r'C:\pima-indians-diabetes.csv'

names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

dataframe = read_csv(path, names=names)

array = dataframe.values

اکنون ، ما می توانیم از کلاس StandardScaler برای بازنویسی داده ها استفاده کنیم.

data_scaler = StandardScaler().fit(array)
data_rescaled = data_scaler.transform(array)

1 2	data_scaler = StandardScaler().fit(array) data_rescaled = data_scaler.transform(array)

ما همچنین می توانیم داده ها را برای خروجی مطابق با انتخاب خود جمع بندی کنیم. در اینجا ، ما دقت را روی 2 تنظیم می کنیم و 5 ردیف اول را در خروجی نشان می دهیم.

set_printoptions(precision=2)
print ("\nRescaled data:\n", data_rescaled [0:5])

1 2	set_printoptions(precision=2) print ("\nRescaled data:\n", data_rescaled [0:5])

خروجی

Rescaled data:
[
   [ 0.64  0.85  0.15  0.91 -0.69  0.2   0.47  1.43  1.37]
   [-0.84 -1.12 -0.16  0.53 -0.69 -0.68 -0.37 -0.19 -0.73]
   [ 1.23  1.94 -0.26 -1.29 -0.69 -1.1   0.6  -0.11  1.37]
   [-0.84 -1.   -0.16  0.15  0.12 -0.49 -0.92 -1.04 -0.73]
   [-1.14  0.5  -1.5   0.91  0.77  1.41  5.48 -0.02  1.37]
]

Rescaled data:

[

[ 0.64 0.85 0.15 0.91 -0.69 0.2 0.47 1.43 1.37]

[-0.84 -1.12 -0.16 0.53 -0.69 -0.68 -0.37 -0.19 -0.73]

[ 1.23 1.94 -0.26 -1.29 -0.69 -1.1 0.6 -0.11 1.37]

[-0.84 -1. -0.16 0.15 0.12 -0.49 -0.92 -1.04 -0.73]

[-1.14 0.5 -1.5 0.91 0.77 1.41 5.48 -0.02 1.37]

]

برچسب گذاری داده ها

ما در مورد اهمیت fata خوب برای الگوریتم های ML و همچنین برخی از تکنیک های پیش پردازش داده ها قبل از ارسال آنها به الگوریتم های ML بحث کردیم. یک جنبه دیگر در این زمینه برچسب گذاری داده ها است. همچنین ارسال داده ها به الگوریتم های ML با برچسب گذاری مناسب بسیار مهم است. به عنوان مثال ، در صورت بروز مشکلات طبقه بندی ، بسیاری از برچسب ها به صورت کلمات ، اعداد و غیره بر روی داده ها وجود دارد.

رمزگذاری برچسب چیست؟

بیشتر توابع sklearn انتظار دارند که داده ها دارای برچسب اعداد باشند تا برچسب های کلمه ای. از این رو ، ما باید چنین برچسب هایی را به برچسب اعداد تبدیل کنیم. این فرآیند رمزگذاری برچسب نامیده می شود. ما می توانیم رمزگذاری برچسب داده ها را با کمک تابع () LabelEncoder کتابخانه پایتون scikit-learn انجام دهیم.

مثال

در مثال زیر، اسکریپت پایتون کدگذاری برچسب را انجام می دهد.

ابتدا کتابخانه های مورد نیاز Python را به صورت زیر وارد کنید –

import numpy as np
from sklearn import preprocessing

1 2	import numpy as np from sklearn import preprocessing

اکنون ، ما باید برچسب های ورودی را به شرح زیر ارائه دهیم –

input_labels = ['red','black','red','green','black','yellow','white']

1	input_labels = ['red','black','red','green','black','yellow','white']

خط بعدی کد، رمزگذار برچسب را ایجاد کرده و آن را آموزش می دهد.

encoder = preprocessing.LabelEncoder()
encoder.fit(input_labels)

1 2	encoder = preprocessing.LabelEncoder() encoder.fit(input_labels)

خطوط بعدی اسکریپت با رمزگذاری لیست مرتب شده تصادفی عملکرد را بررسی می کنند –

test_labels = ['green','red','black']
encoded_values = encoder.transform(test_labels)
print("\nLabels =", test_labels)
print("Encoded values =", list(encoded_values))
encoded_values = [3,0,4,1]
decoded_list = encoder.inverse_transform(encoded_values)

test_labels = ['green','red','black']

encoded_values = encoder.transform(test_labels)

print("\nLabels =", test_labels)

print("Encoded values =", list(encoded_values))

encoded_values = [3,0,4,1]

decoded_list = encoder.inverse_transform(encoded_values)

ما می توانیم لیستی از مقادیر رمزگذاری شده را با کمک اسکریپت پایتون زیر بدست آوریم –

print("\nEncoded values =", encoded_values)
print("\nDecoded labels =", list(decoded_list))

1 2	print("\nEncoded values =", encoded_values) print("\nDecoded labels =", list(decoded_list))

خروجی

Labels = ['green', 'red', 'black']
Encoded values = [1, 2, 0]
Encoded values = [3, 0, 4, 1]
Decoded labels = ['white', 'black', 'yellow', 'green']

Labels = ['green', 'red', 'black']

Encoded values = [1, 2, 0]

Encoded values = [3, 0, 4, 1]

Decoded labels = ['white', 'black', 'yellow', 'green']

منبع.

لیست جلسات قبل آموزش یادگیری ماشین با پایتون

امتیاز دهید post

نویسنده مطلب saber

آموزش آماده سازی داده ها در یادگیری ماشین با پایتون

آموزش آماده سازی داده ها در یادگیری ماشین با پایتون

چرا پیش پردازش داده ها؟

تکنیک های پیش پردازش داده ها در آماده سازی داده ها در یادگیری ماشین با پایتون

مقیاس گذاری

مثال

خروجی

نرمال سازی

انواع نرمال سازی

نرمال سازی L1

مثال

خروجی

نرمال سازی L2

مثال

خروجی

باینری سازی

مثال

خروجی

استاندارد سازی

مثال

خروجی

برچسب گذاری داده ها

رمزگذاری برچسب چیست؟

مثال

خروجی

لیست جلسات قبل آموزش یادگیری ماشین با پایتون

دیدگاه شما

بدون دیدگاه

آموزش آماده سازی داده ها در یادگیری ماشین با پایتون

چرا پیش پردازش داده ها؟

تکنیک های پیش پردازش داده ها در آماده سازی داده ها در یادگیری ماشین با پایتون

مقیاس گذاری

مثال

خروجی

نرمال سازی

انواع نرمال سازی

نرمال سازی L1

مثال

خروجی

نرمال سازی L2

مثال

خروجی

باینری سازی

مثال

خروجی

استاندارد سازی

مثال

خروجی

برچسب گذاری داده ها

رمزگذاری برچسب چیست؟

مثال

خروجی

لیست جلسات قبل آموزش یادگیری ماشین با پایتون

دیدگاه شما

برای صرف‌نظر کردن از پاسخ‌گویی اینجا را کلیک نمایید.

بدون دیدگاه