Back to Question Center
0

Желе Semalt эксперт менен тегиздөө

1 answers:

, ошондой эле интернет жыйноо деп аталган

Web тегиздөө, үчүн колдонулган ыкмасы болуп саналат сайттарындагы маалыматтарды алуу. Желе жыйноочу программалык түздөн-түз HTTP же интернет браузер аркылуу Интернетке кирүү мүмкүнчүлүгүн аласыз. жараян бир программа пайдалануучу тарабынан кол менен жүзөгө ашырылышы мүмкүн, ал эми техника негизинен желе жөрмөлөгүч же Bot пайдалануу менен ишке ашырылып жаткан бир дардын жүрүшүнө алып келет.

Web тейлеген структуралык маалымат сын-пикирлер жана издөө үчүн жергиликтүү базасына Желеден көчүрүлүп алынган жараяны жүрүп жатат. Бул интернет баракты алып келүү жана анын мазмуну казып кирет. беттеги мазмуну талданбай, тинтүү, өзгөртүп кайра түзүлгөн жана анын маалыматтары жергиликтүү сактагыч салып көчүрүлүшү мүмкүн.

Web беттер жалпысынан текст негизделген белгилөө тилде, мисалы, XHTML жана HTML, текст түрүндөгү пайдалуу маалыматтарды бир бөлүгүн камтыган эки эле чыгып курулууда. Бирок, бул сайттардын көп адам акыры-колдонуучулар үчүн иштелип чыккан жана технологиялар пайдалануу үчүн эмес. Бул программа тилип эмне үчүн жаратылган бир себеп болуп саналат.

натыйжалуу желе тейлеген үчүн колдонула турган көп ыкмалар бар. Алардын айрымдары төмөндө иштелип чыккан:

1. Адам Көчүрүү жана пасталар

мезгил-мезгили менен, ал тургай, мыкты желе тилип куралы с алмаштыруу мүмкүн эмес адамдын кол көчүрмөсүн-жана-пастасын Аярдык жана натыйжалуулук..сайттар машина башкарма алдын алуу үчүн тоскоолдуктарды коюп Бул кырдаалдарда негизинен колдонсо болот.

2. Текст Үлгү Үлүштүк

Бул интернет-беттериндеги маалыматты алуу үчүн өтө жөнөкөй, бирок күчтүү ыкма болуп саналат. Ал, мисалы, Python же Perl үчүн, бир программалоо тили боюнча UNIX талаасынын буйрук же туруктуу сөз айкашы объект негизинде иш жүзүнө ашырылышы мүмкүн.

3. HTTP программалоо

HTTP программалоо Статикалык жана динамикалык беттерге да колдонсо болот. оюгу бар программаларды колдонуу, ал эми маалымат алыскы интернет кызматына HTTP талаптарын коюу жолу менен казып жатат.

4. HTML Parsing

Көптөгөн сайттар, мисалы, маалымат базасын түзүү сыяктуу негизги структура булактан динамикалуу түзүлгөн беттен көп жыйнагы бар жакын. Мына, ушундай бир категориясына таандык маалыматтар окшош барактарды алып коддолгон. HTML Талдоонун бир программа жалпы маалыматтын бир булагы мындай шаблон аныктаса, анын мазмунун издейт, анан бир жабуу деп аталат, өнөктөш түрүндө кирип, аны мындай которот.

5. DOM талдоодо

ушул ыкма менен керектөөчү тарабында ариби менен түзүлгөн динамикалык мазмунду алуу үчүн программа, мисалы, Mozilla Firefox же Internet Explorer катары толук кандуу интернет браузер аркылуу кыстарат. Бул браузерлер да беттен бир бөлүгүн бөлүп берет программаларга жараша DOM дарагына барактарды талдоо мүмкүн.

6-семантикалык Шарттуу таануу

Эгер бир маалымат үзүндүлөрү жайгаштыруу колдонулушу мүмкүн семантикалык уламалар жана чечмелөө же метадайындарды, кабыл алышы мүмкүн оорусун кырып салыш үчүн, ниет-беттер. Бул чечмелөө барактарында камтылган болсо, бул ыкма DOM Талдоонун атайын иш катары каралышы мүмкүн. Мындай чечмелөөлөр да синтаксистик катмары катары уюштурулуп, андан кийин сакталат жана интернет беттеринде өзүнчө башкарылган болушу мүмкүн. Бул скреперлерди ал барактарды купулуна чейин бул катмардын маалымат схемасын, ошондой эле буйруктарды түшүрүп алуу мүмкүнчүлүгүн берет.

December 6, 2017
Желе Semalt эксперт менен тегиздөө
Reply