آموزش Souping کردن صفحه در Beautiful Soup

6 سال پیش

امتیاز دهید post

آموزش Souping کردن صفحه در Beautiful Soup

در این درس از مجموعه آموزش برنامه نویسی سایت سورس باران، به آموزش Souping کردن صفحه در Beautiful Soup خواهیم پرداخت.

پیشنهاد ویژه : آموزش طراحی وب سایت با پایتون

در مثال کد قبلی، ما سند را از طریق سازنده زیبا با استفاده از روش رشته تجزیه می کنیم. روش دیگر این است که سند را از طریق فایل باز، باز کنید.

from bs4 import BeautifulSoup
with open("example.html") as fp:
   soup = BeautifulSoup(fp)
soup = BeautifulSoup("&lt;html&gt;data&lt;/html&gt;")

from bs4 import BeautifulSoup

with open("example.html") as fp:

soup = BeautifulSoup(fp)

soup = BeautifulSoup("<html>data</html>")

ابتدا سند به یونی کد تبدیل می شود و موجودیت های HTML به کاراکتر های یونیکد تبدیل می شوند:

import bs4
html = '''&lt;b&gt;tutorialspoint&lt;/b&gt;, &lt;i&gt;&amp;web scraping &amp;data science;&lt;/i&gt;'''
soup = bs4.BeautifulSoup(html, 'lxml')
print(soup)

import bs4

html = '''tutorialspoint, &web scraping &data science;'''

soup = bs4.BeautifulSoup(html, 'lxml')

print(soup)

خروجی

&lt;html&gt;&lt;body&gt;&lt;b&gt;tutorialspoint&lt;/b&gt;, &lt;i&gt;&amp;web scraping &amp;data science;&lt;/i&gt;&lt;/body&gt;&lt;/html&gt;

1	<html><body><b>tutorialspoint</b>, <i>&web scraping &data science;</i></body></html>

BeautifulSoup سپس داده ها را با استفاده از تجزیه کننده HTML تجزیه می کند یا صریحاً به آنها می گویید با استفاده از تجزیه کننده XML تجزیه کنند.

ساختار درخت HTML

قبل از بررسی اجزای مختلف یک صفحه HTML، ابتدا ساختار درخت HTML را درک می کنیم.

آموزش Souping کردن صفحه در Beautiful Soup

عنصر ریشه ای در درخت سند html است که می تواند پدر و مادر ، فرزند و خواهر و برادر داشته باشد و این با توجه به موقعیت آن در ساختار درخت تعیین می شود. برای جابجایی در میان عناصر، ویژگی ها و متن HTML ، باید در میان گره های ساختار درخت خود حرکت کنید.

بگذارید فرض کنیم صفحه وب همانطور که در زیر نشان داده شده است –

آموزش Souping کردن صفحه در Beautiful Soup

که به یک سند html به شرح زیر ترجمه می شود –

&lt;html&gt;&lt;head&gt;&lt;title&gt;TutorialsPoint&lt;/title&gt;&lt;/head&gt;&lt;h1&gt;Tutorialspoint Online Library&lt;/h1&gt;&lt;p&lt;&lt;b&gt;It's all Free&lt;/b&gt;&lt;/p&gt;&lt;/body&gt;&lt;/html&gt;

1	<html><head><title>TutorialsPoint</title></head><h1>Tutorialspoint Online Library</h1><p<<b>It's all Free</b></p></body></html>

این به معنای ساده است، برای سند بالاتر از HTML ، ما یک ساختار درخت HTML داریم به شرح زیر –

آموزش Souping کردن صفحه در Beautiful Soup

منبع.

لیست جلسات قبل آموزش Beautiful Soup در پایتون

امتیاز دهید post

نویسنده مطلب saber

آموزش Souping کردن صفحه در Beautiful Soup

آموزش Souping کردن صفحه در Beautiful Soup

ساختار درخت HTML

لیست جلسات قبل آموزش Beautiful Soup در پایتون

دیدگاه شما

بدون دیدگاه

آموزش Souping کردن صفحه در Beautiful Soup

ساختار درخت HTML

لیست جلسات قبل آموزش Beautiful Soup در پایتون

دیدگاه شما

برای صرف‌نظر کردن از پاسخ‌گویی اینجا را کلیک نمایید.

بدون دیدگاه