آموزش توالی ورودی/خروجی در برنامه نویسی بایوپایتون

4 سال پیش
امتیاز دهید post

 توالی ورودی/خروجی در برنامه نویسی بایوپایتون

در این درس از آموزش های برنامه نویسی سایت سورس باران، ما در مورد توالی ورودی/خروجی در برنامه نویسی بایوپایتون بحث خواهیم کرد.

پیشنهاد ویژه : پکیج آموزش طراحی وب سایت با پایتون و جنگو

Biopython یک ماژول ، Bio.SeqIO را برای خواندن و نوشتن توالی از فایل و یا به ترتیب فایل (هر جریان) فراهم می کند. تقریباً از همه قالب های فایل موجود در بیوانفورماتیک پشتیبانی می کند. بیشتر این نرم افزار رویکردهای مختلفی را برای قالب های مختلف فایل ارائه می دهد. اما، بایوپایتون آگاهانه از یک رویکرد واحد پیروی می کند تا داده های توالی تجزیه شده را از طریق شی SeqRecord به کاربر ارائه دهد.

اجازه دهید در بخش زیر اطلاعات بیشتری در مورد SeqRecord کسب کنیم.

 

SeqRecord

ماژول Bio.SeqRecord SeqRecord را برای نگهداری اطلاعات توالی متا و همچنین داده های توالی خود به شرح زیر ارائه می دهد –

  • seq – این یک توالی واقعی است.
  • id – شناسه اصلی توالی داده شده است. نوع پیش فرض رشته است.
  • name – این نام دنباله است. نوع پیش فرض رشته است.
  • description – این اطلاعات قابل خواندن در مورد توالی را نمایش می دهد.
  • annotations – این یک فرهنگ لغت از اطلاعات اضافی درباره توالی است.

SeqRecord را می توان به صورت زیر وارد کرد

 

اجازه دهید تفاوتهای تجزیه فایل توالی را با استفاده از فایل توالی واقعی در بخشهای بعدی درک کنیم.

تجزیه قالبهای فایل توالی

این بخش در مورد چگونگی تجزیه دو تا از محبوب ترین قالب های  فایل توالی، FASTA و GenBank توضیح می دهیم.

FASTA

FASTA ابتدایی ترین قالب پرونده برای ذخیره داده های توالی است. در اصل ، FASTA یک پکیج نرم افزاری برای هم ترازی توالی DNA و پروتئین است که در اوایل تکامل بیوانفورماتیک ساخته شده و بیشتر برای جستجوی شباهت توالی استفاده می شود.

بایوپایتون مثالی از فایل FASTA را ارائه می کند و می توانید از طریق https://github.com/biopython/biopython/blob/master/Doc/examples/ls_orchid.fasta به آن دسترسی پیدا کنید.

این فایل را به عنوان ‘orchid.fasta’ در فهرست نمونه بایوپایتون دانلود و ذخیره کنید.

ماژول Bio.SeqIO متد ()parse را برای پردازش فایل های توالی فراهم می کند و می تواند به صورت زیر وارد شود –

 

متد ()parse شامل دو آرگومان است، اول دسته فایل و دوم فرمت فایل

 

در اینجا، متد ()parse یک شی قابل تکرار را برمی گرداند که SeqRecord را در هر تکرار برمی گرداند. با قابلیت تکرار، روشهای پیچیده و آسانی را ارائه می دهد و به ما اجازه می دهید برخی از ویژگیها را ببینیم.

متد ()next

متد ()next مورد بعدی موجود در شی قابل تکرار را برمی گرداند، که می توان از آن برای بدست آوردن اولین توالی به شرح زیر استفاده کرد –

 

در اینجا، seq_record.annotations خالی است زیرا قالب FASTA از حاشیه نویسی توالی پشتیبانی نمی کند.

list comprehension

ما می توانیم شی قابل تکرار را با استفاده از list comprehension به صورت زیر به لیست تبدیل کنیم

 

در اینجا، ما از روش len برای بدست آوردن تعداد کل استفاده کرده ایم. توالی را با حداکثر طول می توانیم به شرح زیر بدست آوریم –

 

ما می توانیم توالی را با استفاده از کد زیر فیلتر کنیم –

 

نوشتن مجموعه ای از اشیا  SqlRecord (داده های تجزیه شده) در پرونده به سادگی فراخوانی متد SeqIO.write می باشد که به شرح زیر است –

این روش می تواند به طور موثر برای تبدیل قالب به شرح زیر استفاده شود –

 

GenBank

این یک فرم توالی غنی برای ژن ها است و شامل زمینه هایی برای انواع مختلف حاشیه نویسی است. بایوپایتون مثالی از فایل GenBank را ارائه می دهد و می توانید از طریق https://github.com/biopython/biopython/blob/master/Doc/examples/ls_orchid.fasta به آن دسترسی پیدا کنید.

فایل را به عنوان ‘orchid.gbk’ در فهرست نمونه بایوپایتون دانلود و ذخیره کنید

از آنجا که بایوپایتون یک عملکرد واحد را ارائه می دهد، برای تجزیه تمام قالب های بیوانفورماتیک تجزیه می شود. قالب تجزیه GenBank به همان اندازه تغییر گزینه قالب در روش تجزیه ساده است.

کد مربوط به آن در زیر آورده شده است –

 

منبع.

لیست جلسات قبل آموزش برنامه نویسی بایوپایتون

  1. آموزش برنامه نویسی بایوپایتون (Biopython)
  2. معرفی برنامه نویسی بایوپایتون
  3. آموزش نصب بایوپایتون
  4. ایجاد یک برنامه ساده در برنامه نویسی بایوپایتون
  5. آموزش دنباله در برنامه نویسی بایوپایتون
  6. عملیات توالی پیشرفته در برنامه نویسی بایوپایتون
امتیاز دهید post
0
برچسب ها :
نویسنده مطلب saber

دیدگاه شما

بدون دیدگاه