آموزش تجزیه و تحلیل خوشه ای در برنامه نویسی بایوپایتون
تجزیه و تحلیل خوشه ای در برنامه نویسی بایوپایتون
در این درس از آموزش های برنامه نویسی سایت سورس باران، ما در مورد آموزش تجزیه و تحلیل خوشه ای در برنامه نویسی بایوپایتون بحث خواهیم کرد.
پیشنهاد ویژه : پکیج آموزش پایتون
به طور کلی تجزیه و تحلیل خوشه ای، گروه بندی مجموعه ای از اشیا در همان گروه است. این مفهوم عمدتا در داده کاوی، تجزیه و تحلیل داده های آماری، یادگیری ماشین، تشخیص الگو، تجزیه و تحلیل تصویر ، بیوانفورماتیک و غیره استفاده می شود. می توان با الگوریتم های مختلف به این نتیجه رسید که چگونه خوشه به طور گسترده در تجزیه و تحلیل های مختلف استفاده می شود.
طبق بیوانفورماتیک، تجزیه خوشه ای عمدتا در تجزیه و تحلیل داده های بیان ژن برای یافتن گروه هایی از ژن ها با بیان ژن مشابه استفاده می شود.
بایوپایتون از ماژول Bio.Cluster برای پیاده سازی همه الگوریتم ها استفاده می کند. این الگوریتم های زیر را پشتیبانی می کند –
- Hierarchical Clustering
- K – Clustering
- Self-Organizing Maps
- Principal Component Analysis
بگذارید یک معرفی مختصر در مورد الگوریتم های فوق داشته باشیم.
خوشه بندی سلسله مراتبی (Hierarchical Clustering)
خوشه بندی سلسله مراتبی برای اتصال هر گره با اندازه گیری فاصله به نزدیکترین همسایه و ایجاد خوشه استفاده می شود. گره Bio.Cluster دارای سه ویژگی است: چپ، راست و فاصله.
اجازه دهید یک خوشه ساده ایجاد کنیم:
1 2 3 4 5 6 7 |
>>> from Bio.Cluster import Node >>> n = Node(1,10) >>> n.left = 11 >>> n.right = 0 >>> n.distance = 1 >>> print(n) (11, 0): 1 |
اگر می خواهید خوشه بندی مبتنی بر درخت را ایجاد کنید، از دستور زیر استفاده کنید:
1 2 3 4 5 6 |
>>> n1 = [Node(1, 2, 0.2), Node(0, -1, 0.5)] >>> n1_tree = Tree(n1) >>> print(n1_tree) (1, 2): 0.2 (0, -1): 0.5 >>> print(n1_tree[0]) (1, 2): 0.2 |
اجازه دهید خوشه بندی سلسله مراتبی را با استفاده از ماژول Bio.Cluster انجام دهیم.
در نظر بگیرید که فاصله در یک آرایه تعریف شده است.
1 2 |
>>> import numpy as np >>> distance = array([[1,2,3],[4,5,6],[3,5,7]]) |
اکنون آرایه فاصله را در خوشه درخت اضافه کنید.
1 2 3 4 5 |
>>> from Bio.Cluster import treecluster >>> cluster = treecluster(distance) >>> print(cluster) (2, 1): 0.666667 (-1, 0): 9.66667 |
تابع فوق یک شی خوشه Tree را برمی گرداند. این شی شامل گره هایی است که تعداد موارد به صورت ردیف یا ستون جمع شده است.
K – Clustering
این یک نوع الگوریتم پارتیشن بندی است و در خوشه بندی k – means, medians و medoids طبقه بندی می شود. بگذارید هر یک از خوشه بندی ها را به طور خلاصه درک کنیم.
خوشه بندی K-means
این روش در داده کاوی محبوب است. هدف این الگوریتم یافتن گروههایی در داده ها با تعداد گروههایی است که توسط متغیر K نمایش داده می شوند.
الگوریتم به صورت تکراری کار می کند تا هر نقطه داده را بر اساس ویژگی های ارائه شده به یکی از گروه های K اختصاص دهد. نقاط داده بر اساس شباهت ویژگی ها خوشه بندی می شوند.
1 2 3 4 5 6 7 |
>>> from Bio.Cluster import kcluster >>> from numpy import array >>> data = array([[1, 2], [3, 4], [5, 6]]) >>> clusterid, error,found = kcluster(data) >>> print(clusterid) [0 0 1] >>> print(found) 1 |
خوشه بندی K-medians
این نوع دیگری از الگوریتم خوشه بندی است که میانگین هر خوشه را برای تعیین مرکز گرایش آن محاسبه می کند.
خوشه بندی K-medoids
این روش با استفاده از ماتریس فاصله و تعداد خوشه های منتقل شده توسط کاربر، بر اساس مجموعه ای از موارد مشخص است.
ماتریس فاصله را به شرح زیر در نظر بگیرید:
1 |
>>> distance = array([[1,2,3],[4,5,6],[3,5,7]]) |
با استفاده از دستور زیر می توان خوشه بندی k-medoids را محاسبه کرد:
1 2 |
>>> from Bio.Cluster import kmedoids >>> clusterid, error, found = kmedoids(distance) |
اجازه بدین مثالی را مطرح کنیم.
تابع kcluster یک ماتریس داده و نه نمونه های Seq را به عنوان ورودی می گیرد. شما باید توالی های خود را به یک ماتریس تبدیل کرده و آن را به تابع kcluster ارائه دهید.
یکی از متد های تبدیل داده ها به ماتریس حاوی عناصر عددی فقط استفاده از تابع numpy.fromstring است. در اصل هر حرف را به ترتیب به همتای ASCII خود ترجمه می کند.
این یک آرایه 2D از توالی های رمزگذاری شده ایجاد می کند که تابع kcluster آنها را شناسایی کرده و از آنها برای خوشه سازی توالی های شما استفاده می کند.
1 2 3 4 5 6 |
>>> from Bio.Cluster import kcluster >>> import numpy as np >>> sequence = [ 'AGCT','CGTA','AAGT','TCCG'] >>> matrix = np.asarray([np.fromstring(s, dtype=np.uint8) for s in sequence]) >>> clusterid,error,found = kcluster(matrix) >>> print(clusterid) [1 0 0 1] |
نقشه های خود سازمان دهنده
این رویکرد نوعی شبکه عصبی مصنوعی است. توسط کوهنن ساخته شده و اغلب به عنوان نقشه کوهنن نامیده می شود. این آیتم ها را بر اساس توپولوژی مستطیلی به صورت خوشه ای سازمان می دهد.
اجازه دهید یک خوشه ساده با استفاده از همان فاصله آرایه ای که در زیر نشان داده شده ایجاد کنیم:
1 2 3 4 5 6 7 8 9 10 11 12 13 |
>>> from Bio.Cluster import somcluster >>> from numpy import array >>> data = array([[1, 2], [3, 4], [5, 6]]) >>> clusterid,map = somcluster(data) >>> print(map) [[[-1.36032469 0.38667395]] [[-0.41170578 1.35295911]]] >>> print(clusterid) [[1 0] [1 0] [1 0]] |
در اینجا، Clusterid آرایه ای با دو ستون است، که در آن تعداد ردیف ها با تعداد مواردی که خوشه بندی شده اند برابر است و داده ها یک آرایه با ابعاد ردیف یا ستون هستند.
تحلیل مولفه اصلی
تجزیه و تحلیل مولفه اصلی برای تجسم داده های با ابعاد بالا مفید است. این روشی است که از عملیات ساده ماتریس جبر خطی و آمار برای محاسبه پیش بینی داده های اصلی به همان تعداد یا ابعاد کمتر استفاده می کند.
تجزیه و تحلیل مولفه اصلی یک ستون تجربی، مختصات مولفه ها و مقادیر ویژه را برمی گرداند. بگذارید اصول این مفهوم را بررسی کنیم
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 |
>>> from numpy import array >>> from numpy import mean >>> from numpy import cov >>> from numpy.linalg import eig # define a matrix >>> A = array([[1, 2], [3, 4], [5, 6]]) >>> print(A) [[1 2] [3 4] [5 6]] # calculate the mean of each column >>> M = mean(A.T, axis = 1) >>> print(M) [ 3. 4.] # center columns by subtracting column means >>> C = A - M >>> print(C) [[-2. -2.] [ 0. 0.] [ 2. 2.]] # calculate covariance matrix of centered matrix >>> V = cov(C.T) >>> print(V) [[ 4. 4.] [ 4. 4.]] # eigendecomposition of covariance matrix >>> values, vectors = eig(V) >>> print(vectors) [[ 0.70710678 -0.70710678] [ 0.70710678 0.70710678]] >>> print(values) [ 8. 0.] |
اجازه دهید همان داده های ماتریس مستطیل را برای Bio اعمال کنیم. ماژول Cluster که در زیر تعریف شده است:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 |
>>> from Bio.Cluster import pca >>> from numpy import array >>> data = array([[1, 2], [3, 4], [5, 6]]) >>> columnmean, coordinates, components, eigenvalues = pca(data) >>> print(columnmean) [ 3. 4.] >>> print(coordinates) [[-2.82842712 0. ] [ 0. 0. ] [ 2.82842712 0. ]] >>> print(components) [[ 0.70710678 0.70710678] [ 0.70710678 -0.70710678]] >>> print(eigenvalues) [ 4. 0.] |
لیست جلسات قبل آموزش برنامه نویسی بایوپایتون
- آموزش برنامه نویسی بایوپایتون (Biopython)
- معرفی برنامه نویسی بایوپایتون
- آموزش نصب بایوپایتون
- ایجاد یک برنامه ساده در برنامه نویسی بایوپایتون
- آموزش دنباله در برنامه نویسی بایوپایتون
- عملیات توالی پیشرفته در برنامه نویسی بایوپایتون
- آموزش توالی ورودی/خروجی در برنامه نویسی بایوپایتون
- آموزش همترازسازی توالی در برنامه نویسی بایوپایتون
- بررسی اجمالی BLAST در برنامه نویسی بایوپایتون
- بررسی پایگاه داده Entrez در برنامه نویسی بایوپایتون
- آموزش ماژول PDB در برنامه نویسی بایوپایتون
- آموزش اشیا موتیف در برنامه نویسی بایوپایتون
- آموزش ماژول BioSQL در برنامه نویسی بایوپایتون
- آموزش ژنتیک جمعیت در برنامه نویسی بایوپایتون
- آموزش آنالیز ژنوم در برنامه نویسی بایوپایتون
- آموزش ریزآرایه فنوتیپ در برنامه نویسی بایوپایتون
- آموزش رسم نمودار در برنامه نویسی بایوپایتون
دیدگاه شما