Back to Question Center
0

Тегиздөө Python менен сайттарга жана BeautifulSoup - Semalt ой толгоолор

1 answers:

сайттарын жарасын кырыш үчүн кандай интернет жетиштүү маалымат да бар жана туура блогдор. Ошол маалыматтар керек, ошондо биз жөн гана жетүү эмес, бирок эскертүү жолдорун чогултуу, талдоо жана аны уюштуруу. Python жана BeautifulSoup сайттарды кырып тазалап, маалыматтарды алуу үчүн эки кереметтүү куралдар бар. желе тейлеген-жылы, маалыматтарды казылып алынган жана кайсы бир түрүндө берилиши мүмкүн - kanger subtank mini v2 coils. анын / убакыт жана акча баалайт өтө ынтызарлык менен салым болуп саналат, анда сөзсүз желе тегиздөө тез жана болушу мүмкүн эле оптималдаштырылган катары көрүшүбүз керек.

баштады Getting

Биз негизги тейлеген тили катары Python жана BeautifulSoup да колдонуп жатабыз.

  • 1. Mac колдонуучулар үчүн, Python OS менен алдын ала орнотулган эмес бөлүм Алар Terminal ачуу жана терүүгө туура код колёса . Мына ушундай жол менен, алар Python 2.7 нускасын көрө алат.
  • 2. Windows колдонуучулар үчүн, биз анын расмий сайтында аркылуу Python орнотуп сунуштайбыз.
  • 3. Кийинки, сен МИПти жардамы менен BeautifulSoup китепканасына кире керек. Бул топтом башкаруу куралы, айрыкча Python үчүн жасалган.

терминалын, сиз төмөнкү кодду киргизүү керек:

easy_install блогу

BeautifulSoup4 орнотуу блогу

эрежелери шилеп:

сен негизги тейлеген эрежелери жөнүндө кам көрүүгө тийиш:

  • Сиз, аны тейлеген менен башталган чейин сайттын жана жөнгө салуунун эрежелерин текшерүү керек 1...Ошондуктан сак болгула!
  • 2. Сиз өтө эле чектен сайттардын маалыматтарды суратып керек. текшерип, колдонгон курал негиздүү кыймылдайт. Болбосо, сайтты бузуп алабыз.
  • 3. секундасына бир өтүнүч оң практика болуп саналат.
  • 4. блог же сайтты жайгашуусу каалаган учурда өзгөрүшү мүмкүн, жана бул сайтты карап, өз кодун муктаждык жазууга мүмкүн.

эмне кылуу керек экенин түшүнүү Баасы беттеги сиздин курсорду Hover карап чыккыла. HTML жана Python да байланыштуу текстти окуп, жана жыйынтыгы, сиз HTML Tags ичиндеги бааларды көрө аласыз.

Бул HTML теги көп

түрүндө келет

→ →.

Excel CSV'ге экспорттоо

дайындарды алынган кийин, кийинки кадам сырткары, аны сактап калуу болуп саналат. Excel Үтүр менен бөлүнгөн жазуусу бул жагынан мыкты чечим болуп саналат, жана сиз оной Excel барагында, аны ача алат. Бирок, биринчиден, туура маалыматты жазуу Python CSV модулдарды жана күн убакыт модулдарды импорттоону болмок. Төмөнкү коду импорттук бөлүмүндө киргизсе болот:

импорттук CSV

DATETIME үчүн DateTime импорт

Advanced тейлеген техника

BeautifulSoup интернет тейлеген үчүн жөнөкөй жана ар тараптуу инструменттердин бири болуп саналат. Бирок, сиз маалыматтардын чоң көлөмүн оруп керек болсо, кээ бир башка ыкмалар карап:

  • 1. Scrapy күчтүү жана кереметтүү Python тилип негизи болуп саналат.
  • Ошондой эле коомдук API менен кодду киргизүү мүмкүн 2.. маалыматтарды натыйжалуулугу маанилүү болот. Мисалы, сиз маалыматты жана аны Facebook беттеринде көрүнөт эмес, жашырып берет Facebook диаграмма API, аракет болот.
  • 3. Мындан тышкары, Сиз MySQL сыяктуу арткы программаларды колдонуу жана зор тактык менен ири өлчөмдө маалыматтарды сактай алат.
  • 4. DRY "да жок көрүнөт" жактайт жана бул ыкманы колдонуу менен кезектеги милдеттерди автоматташтыруу аракет болот.
December 8, 2017