آموزش نصب Beautiful Soup

4 سال پیش
امتیاز دهید post

آموزش نصب Beautiful Soup

در این درس از مجموعه آموزش برنامه نویسی سایت سورس باران، به آموزش نصب Beautiful Soup خواهیم پرداخت.

پیشنهاد ویژه : پکیج آموزش صفر تا صد پایتون

 

از آنجا که BeautifulSoup یک کتابخانه استاندارد پایتون نیست، ابتدا باید آن را نصب کنیم. ما قصد داریم کتابخانه BeautifulSoup 4 (که به آن BS4 نیز می گویند) را نصب کنیم که جدیدترین کتابخانه است.

 

برای ایزوله کردن محیط کار خود برای عدم ایجاد اختلال در تنظیمات موجود، ابتدا اجازه دهید یک محیط مجازی ایجاد کنیم.

 

ایجاد یک محیط مجازی (اختیاری)

یک محیط مجازی به ما امکان می دهد یک نسخه فعال از پایتون را برای پروژه خاصی ایجاد کنیم بدون اینکه بر تنظیمات بیرونی تأثیر بگذارد.

 

بهترین راه برای نصب هر دستگاه بسته پایتون استفاده از pip است، با این حال ، اگر pip از قبل نصب نشده است (می توانید آن را با استفاده از “pip –version” در فرمان یا پوسته خود بررسی کنید) ، می توانید با دادن دستور زیر –

محیط لینوکس

 

محیط ویندوز

برای نصب pip در ویندوز ، موارد زیر را انجام دهید –

  • get-pip.py را از https://bootstrap.pypa.io/get-pip.py یا از github دانلود کنید.
  • خط فرمان را باز کرده و به پوشه حاوی پرونده get-pip.py بروید.
  • دستور زیر را اجرا کنید –

 

 

pip اکنون در دستگاه ویندوز شما نصب شده است.

می توانید  pip خود را با اجرای زیر دستور تأیید کنید –

 

 

 نصب محیط مجازی

دستور زیر را در خط فرمان خود اجرا کنید –

 

پس از اجرا، تصویر زیر را مشاهده خواهید کرد –

Virtualenv

دستور زیر یک محیط مجازی (“myEnv”) در فهرست فعلی شما ایجاد می کند –

 

Activate

برای فعال کردن محیط مجازی خود ، دستور زیر را اجرا کنید –

 

Virtual Environment

در تصویر بالا، می توانید “myEnv” را به عنوان پیشوند مشاهده کنید که به ما می گوید در محیط مجازی “myEnv” هستیم.

برای بیرون آمدن از محیط مجازی، غیرفعال کنید.

همانطور که محیط مجازی ما آماده است، اکنون اجازه دهید Beautifulsoup را نصب کنیم.

نصب BeautifulSoup

از آنجا که BeautifulSoup یک کتابخانه استاندارد نیست ، بنابراین باید آن را نصب کنیم. ما قصد داریم از بسته BeautifulSoup 4 (معروف به bs4) استفاده کنیم.

ماشین لینوکس

برای نصب bs4 در Debian یا Ubuntu linux با استفاده از مدیر بسته سیستم، دستور زیر را اجرا کنید –

با استفاده از easy_install یا pip می توانید bs4 را نصب کنید (درصورتی که در نصب با استفاده از بسته بندی سیستم مشکلی پیدا کنید)

 

(اگر از python3 استفاده می کنید به ترتیب باید از easy_install3 یا pip3 استفاده کنید)

ویندوز

نصب Beautifulsoup4 در ویندوز بسیار ساده است ، خصوصاً اگر pip را قبلاً نصب کرده اید.

(اگر از python3 استفاده می کنید به ترتیب باید از easy_install3 یا pip3 استفاده کنید)

Beautifulsoup4

بنابراین اکنون beautifulsoup4 در دستگاه ما نصب شده است. اجازه دهید در مورد برخی از مشکلات پس از نصب با ما صحبت کنیم.

مشکلات پس از نصب

در دستگاه ویندوز ممکن است با آن مواجه شوید، نسخه اشتباه نصب شده است که عمدتا از طریق –

  • خطا: “ImportError “No module named HTMLParser” ، بنابراین شما باید نسخه پایتون 2 کد را در زیر پایتون 3 اجرا کنید.
  • خطا:  “ImportError “No module named html.parser” وجود دارد، بنابراین شما باید نسخه Python 3 کد را در زیر Python 2 اجرا کنید.

بهترین راه برای خارج شدن از دو حالت فوق نصب مجدد BeautifulSoup است و نصب موجود را کاملاً از بین می برد.

اگر “SyntaxError “Invalid syntax”  را در خط ROOT_TAG_NAME = u ‘[سند] “دریافت کردید، باید کد پایتون 2 را به پایتون 3 تبدیل کنید، فقط با نصب بسته –

یا با اجرای دستی اسکریپت تبدیل python 2 به 3 در دایرکتوری bs4 –

نصب تجزیه کننده

به طور پیش فرض، Beautiful Soup از تجزیه کننده HTML موجود در کتابخانه استاندارد Python پشتیبانی می کند ، با این حال از بسیاری از تجزیه کنندگان پایتون شخص ثالث خارجی مانند تجزیه کننده lxml یا تجزیه کننده html5lib نیز پشتیبانی می کند.

برای نصب تجزیه کننده lxml یا html5lib ، از دستور استفاده کنید –

ماشین لینوکس

 

ویندوز 

Installing a Parser

به طور کلی ، کاربران از lxml برای سرعت استفاده می کنند و توصیه می شود اگر از نسخه قدیمی پایتون 2 (قبل از نسخه 2.7.3) یا پایتون 3 (قبل از 3.2.2) به عنوان تجزیه کننده داخلی HTML پایتون استفاده می کنید، از تجزیه کننده lxml یا html5lib استفاده کنید. در دست زدن به نسخه قدیمی خیلی خوب نیست.

اجرای BeautifulSoup

وقت آن است که پکیج BeautifulSoup را در یکی از صفحات html (با گرفتن صفحه وب – https://www.tutorialspoint.com/index.htm ، می توانید هر صفحه وب دیگری را که می خواهید انتخاب کنید) آزمایش کنید و برخی از اطلاعات را استخراج کنید.

در کد زیر، ما سعی داریم عنوان را از صفحه وب استخراج کنیم –

 

خروجی

<title> H2O ، Colab ، Theano ، Flutter ، KNime ، Mean.js ، Weka ، Solidity ، Org.Json ، AWS QuickSight ، JSON. ساده ، حاشیه

 

یک کار مشترک استخراج کلیه URL ها در یک صفحه وب است. برای این منظور ما فقط باید کد زیر را اضافه کنیم –

 

خروجی

 

منبع.

 

لیست جلسات قبل آموزش Beautiful Soup در پایتون

  1. آموزش Beautiful Soup در پایتون
  2.  بررسی اجمالی Beautiful Soup در پایتون
امتیاز دهید post
0
برچسب ها :
نویسنده مطلب saber

دیدگاه شما

بدون دیدگاه