Semalt: Иқтибос кардани URLҳо аз саҳифаҳои веб бо шӯрбои зебо

Шӯрбои зебо як бастаи сатҳи баланди Python аст, ки барои таҳлили ҳуҷҷатҳои XML ва HTML истифода мешавад. Китобхонаи зебои Soup Python дарахти парсиро эҷод мекунад, ки барои гирифтани иттилооти муфид аз HyperText Markup Language (HTML) истифода мешавад. Ин китобхона барои ҳарду нусхаи Python 2 ва Python 3 дастрас аст.

Дар аксари ҳолатҳо, шумо мебинед, ки ба иттилооти мақсадноки шумо танҳо дастрасӣ ва ҳамчун як қисми веб саҳифа мумкин аст. Дар ин ҳолат, шумо бояд чунин усули скрепингро истифода баред, ки маълумотҳоро дар формати таҳлилшаванда истихроҷ кунад. Дар ин ҷо китобхонаи зебои шӯрбоҳо дохил мешаванд.

Талабот

Барои истифодаи китобхонаи зебои шӯру шумо модулҳои дуруст лозиманд. Барои оғози кор, шумо бояд дар барномасозии забони барномасозии Python 2.7 дар компютери худ насб кунед. Дар ин паём, шумо мефаҳмед, ки чӣ гуна сайтро буридан ва URL-ҳоро бо истифода аз дархостҳо ва шӯрбои зебои 4. Ҳуҷҷатҳои HTML як кори мустақилона аст, алахусус бо ёрии техникии Шӯрбои зебо.

Чаро шӯрбои зеборо истифода мебаранд?

Шӯрбои зебо маҷмӯаи дараҷаи баландтарини Python мебошад, ки аз соли 2004 барои решакан кардани вебсайтҳо ва таҳлили барчаспҳои HTML истифода мешавад. Ба наздикӣ, Beautiful Soup 4 ивазкунандаи зебои Шӯрбо 3-ро дар саноат иваз кард. Дар хотир доред, ки BS4 дар ҳарду нусхаи Python кор мекунад ва BS3 танҳо дар Python 2.7 кор мекунад. Китобхона аз хусусиятҳои насбшудаи зерин иборат аст:

  • Қобилияти рамзгузорӣ - Пас аз насб кардани модулҳои зебои шӯрбои нав дар мошини худ, шумо набояд дар бораи рамзҳо воҳима кунед. Китобхона барои мубодилаи ашё ба Юникод ва бароришҳо ба UTF-8 худкор аст.
  • Қобилияти навигатсионӣ - Шӯрбои зебо истифодаи усулҳои ҷустуҷӯ, паймоиш ва тағир додани дарахти парсиро осон мекунад.

Чӣ тавр аз китобхонаи зебои Шӯрбо бояд истифода кард?

Пас аз насб кардани шӯрбои зебо дар мошини худ, шумо метавонед ба истифодаи китобхона шурӯъ кунед. Барои оғози кор, китобхонаи bs4 -ро дар аввали рамзи Python-и худ ворид кунед. Барои эҷод кардани ашёи шӯрбо мӯҳтаво ё URL -ро ба Шӯрбои зебо гузаред. Аммо, китобхона веб саҳифаи мавриди ҳадафро дар худ пайдо намекунад. Дар ин ҷо, шумо бояд ин вазифаро ба таври дастӣ иҷро кунед. Шумо инчунин метавонед веб-сайти дилхоҳро бо истифодаи комбинатсияи Python ва Beautiful зебо ба даст оваред.

Нақшҳои китобхонаи дархостӣ

Барои пароканда кардани саҳифа, шумо бояд онро аввал зеркашӣ кунед. Шумо метавонед веб саҳифаҳоро бо истифода аз китобхонаи дархост зеркашӣ кунед. Китобхонаро дархост мекунад, ки бо дархости "GET" ба серверҳои веб муроҷиат кунад, ки дар навбати худ таркиби HTML-и саҳифаи маъқулро зеркашӣ кунад.

Хориҷ кардани URL-ҳо аз сафҳаҳои веб

Ҳоло шумо маълумоти муфассалро дар бораи китобхонаи зебои Шӯрбо доред. Маҷмӯаи китобхонаи BS4 ва Python ба шумо барои зуд ба даст овардани веб саҳифа кӯмак мерасонанд. Барои истихроҷ кардани ҳамаи URL-ҳо аз вебсайти мақсадноки шумо, усули "ҳама чизро" истифода баред. Ин усул ба шумо маҷмӯи унсурҳоро бо барчасп медиҳад. Аз bs4, ҳам Шӯрбои зебо ва ҳам дархостҳоро ворид кунед. Рамзи худро иҷро кунед ва вебсайт ё вебсайтро барои ҳосил кардани URL-ҳо аз ин ҷо ворид кунед.

mass gmail