Rishikimi i Semalt: Scraping në Ueb për Argëtim dhe Fitim

Ju mund të bëni scrape site pa pasur nevojë për një API. Ndërsa pronarët e faqeve janë agresivë për ndalimin e scraping, ata kujdesen më pak për API dhe në vend të kësaj vendosin më shumë theks në faqet e internetit. Faktet që shumë site nuk mbrojnë në mënyrë të duhur nga hyrja automatike krijojnë një rrugë falas për scraper. Disa rrugë të thjeshta do t'ju ndihmojnë të korrni të dhënat që ju nevojiten.

Fillimi me Scraping

Scraping kërkon të kuptoni strukturën e të dhënave që ju nevojiten dhe mundësinë e arritjes së tij. Kjo fillon duke marrë të dhënat tuaja. Gjeni URL-në që kthen informacionin që ju nevojitet. Shfletoni në faqen e internetit dhe kontrolloni se si URL-të ndryshojnë ndërsa lundroni nëpër seksione të ndryshme.

Përndryshe, kërkoni disa terma në faqe dhe kontrolloni se si URL-të ndryshojnë në bazë të termit tuaj të kërkimit. Duhet të shihni një parametër GET si q = që ndryshon sa herë që kërkoni një term të ri. Mbani parametrat GET të nevojshëm për ngarkimin e të dhënave tuaja dhe hiqni të tjerët.

Si të merreni me paginimin

Paginimi ju mban juve të mos përdorni të gjitha të dhënat që ju nevojiten menjëherë. Kur klikoni në faqen 2, një parametër kompensim = shtohet në URL. Ky është ose numri i elementeve në një faqe ose numri i faqes. Rritni këtë numër në çdo faqe të të dhënave tuaja.

Për faqet që përdorin AJAX, tërhiqni skedën e rrjetit në Firebug ose Inspektor. Kontrolloni kërkesat XHR, identifikoni dhe përqendrohuni në ato që tërheqin të dhënat tuaja.

Merrni të dhëna nga Markup Faqe

Kjo arrihet duke përdorur grepa CSS. Klikoni me të djathtën një seksion të veçantë të të dhënave tuaja. Tërhiqni Firebug-in ose Inspektorin dhe zmadhoni pemën DOM për të marrë <div> më të madhe që përfundon një artikull të vetëm. Pasi të keni nyjen e saktë nga pema DOM, shikoni burimin e faqes për të siguruar që elementët tuaj të jenë të arritshëm në HTML të papërpunuar.

Për të zbuluar me sukses skrapin në sit, ju duhet një bibliotekë analizuese HTML që lexon në HTML dhe e kthen atë në një objekt që mund ta përsërisni derisa të merrni atë që ju nevojitet. Nëse biblioteka juaj HTTP kërkon që të vendosni disa cookie ose header, shfletoni faqen në shfletuesin tuaj të internetit dhe merrni kokat që dërgohen nga shfletuesi juaj. Vendosini ato në një fjalor dhe përpara me kërkesën tuaj.

Kur të duhet një hyrje për të copëtuar

Nëse duhet të krijoni një llogari dhe të identifikoheni për të marrë të dhënat që dëshironi, duhet të keni një bibliotekë të mirë HTTP për të trajtuar login. Hyrja Scraper ju ekspozon në faqet e palëve të treta.

Nëse kufiri i normës së shërbimit tuaj në internet varet nga adresa IP, vendosni një kod që godet shërbimin në ueb një Javascript nga klienti. Pastaj përcillni rezultatet përsëri në serverin tuaj nga secili klient. Rezultatet do të duket se kanë origjinë nga kaq shumë vende, dhe asnjë nuk do ta tejkalojë kufirin e tyre të normës.

Markup i formuar dobët

Disa shënime mund të jenë të vështira për t'u vërtetuar. Në raste të tilla, gërmoni në analizuesin tuaj HTML për cilësimet e tolerancës së gabimit. Përndryshe, trajtojeni tërë dokumentin HTML si një tel të gjatë dhe bëni ndarjen e vargjeve.

Ndërsa mund të skraponi të gjitha llojet e të dhënave në netë disa site përdorin softuer për të ndaluar skrapimin, dhe të tjera ndalojnë regjistrimin e faqeveinternet . Faqet e tilla mund t'ju padisin dhe madje ju keni burgosur për vjeljen e të dhënave të tyre. Pra, jini të zgjuar në të gjitha skrapimet tuaja në internet dhe bëjeni të sigurtë.