Semalt: HTML Scraping Guide - საუკეთესო რჩევები

ვებ – შინაარსი ძირითადად სტრუქტურირებულ ან HTML ფორმატშია. ყველა გვერდი უნიკალური ფორმითაა ორგანიზებული მასში შემავალი შინაარსის მიხედვით. თუ ვინმეს სურს ვებ – ინფორმაციის მოპოვება, თითოეული ადამიანის სურვილია მიიღოს მონაცემები სტრუქტურული და მოწესრიგებული ფორმით. ეს ხელს შეუწყობს დოკუმენტის განხილვის, ანალიზისა და ორგანიზებისთვის საჭირო დროის დაზოგვას, სანამ გაზიარდება. ამასთან, სტრუქტურირებული ფორმატის მიღება ადვილი არ არის, რადგან ვებსაიტების უმეტესობა არ გვთავაზობს ამ ვარიანტს, რათა ხალხს დიდი რაოდენობით მონაცემების მოპოვება არ შეეძლოს. ამასთან, ზოგიერთ საიტზე მოცემულია API, რომელიც ხალხს ინფორმაციის მოპოვების ვარიანტს უწევს სწრაფ და მარტივ პროცესში.

ასეთ ღონისძიებებში სხვა არჩევანი არ გექნებათ, გამოიყენოთ პროგრამირების პროგრამის დახმარებით, რომელიც ცნობილია როგორც scraping. ეს არის მიდგომა, რომელიც იყენებს კომპიუტერულ პროგრამას, რომელიც მომხმარებლებს ეხმარება ინფორმაციის სასარგებლო ფორმატში შეგროვებაში და მონაცემთა სტრუქტურის შენარჩუნებაში.

Lxml და მოთხოვნა

ეს არის ფართო სპექტრის სკრიპტის ბიბლიოთეკა, რომელიც დაგეხმარებათ XML და HTML– ს სწრაფად ანალიზსა და შეფასებაში და ხელს უწყობს დროის დაზოგვას. ეს ასევე სასარგებლოა ანალიზების პროცესში შეცბუნებულ ტეგებთან გამკლავებაში. ამ პროცედურაში, თქვენ იყენებთ Lxml მოთხოვნებს, ვიდრე ინტეგრირებული urllib2, რადგან ის უფრო სწრაფი, მყარი და ადვილად ხელმისაწვდომია. მისი ინსტალაცია მარტივია პიპ ინსტალაციის Lxml და პიპ ინსტალაციის მოთხოვნების გამოყენებით.

HTML scraping– ისთვის მიყევით ამ ნაბიჯებს

იმპორტით დაიწყეთ - აქ HTML შემოაქვთ Lxml– დან, შემდეგ იმპორტის მოთხოვნით. გამოიყენეთ მოთხოვნა და შემდეგ დააკონკრეტეთ ვებ გვერდი, რომელიც შეიცავს მონაცემებს, რომლის ამოღებაც გსურთ, გააანალიზეთ ის HTML მოდულით, შემდეგ კი შეინახეთ ხეზე დახეული მონაცემები.

თქვენ დაგჭირდებათ გვერდის შინაარსის გამოყენება, ვიდრე ტექსტი, რადგან HTML ელოდება ბიტში შეყვანას. ხე, სადაც თქვენ შეინახეთ თქვენი ანალიზური მონაცემები, ახლა შეიცავს HTML დოკუმენტს ხის სტრუქტურაში. თქვენ შეგიძლიათ გადახვიდეთ ხის სტრუქტურაზე სხვადასხვა მიდგომებში, XPath და CSSelect.

XPath დაგეხმარებათ ინფორმაციის მოძიებაში ან მოპოვებული სტრუქტურული ფორმატით, როგორიცაა HTML ან XML. არსებობს მრავალი გზა, რომლის საშუალებითაც შეგიძლიათ XPath ელემენტების მიღება. ეს მოიცავს Firebug- ს Firefox- ის ან Chrome ინსპექტორისთვის. Chrome- ის გამოყენებისას, ინფორმაციის შემოწმება მარტივია, რადგან თქვენ მხოლოდ უნდა დააჭიროთ ელემენტს, რომელიც ინსპექტირებას მოითხოვს, აირჩიეთ 'ინსპექტირება ელემენტი', ხაზს უსვამს მითითებულ კოდს, შემდეგ კი დააჭირეთ ღილაკს მარჯვენა ღილაკით და აირჩიეთ ასლი XPath. ეს პროცესი დაგეხმარებათ იცოდეთ რომელი ელემენტები შეიცავს თქვენს გვერდზე და იქიდან, მარტივად შეგიძლიათ შექმნათ სწორი XPath მოთხოვნა და სწორად გამოიყენოთ Lxml XPath.

ამ ნაბიჯების გავლა უზრუნველყოფს, რომ თქვენ გადაიტანეთ ყველა ის მონაცემი, რომელიც გსურთ ამონაწერი ამა თუ იმ ვებდან, Lxml და მოთხოვნების გამოყენებით. გექნებათ ინფორმაცია, რომელიც ინახება ორ სიაში მეხსიერებაში, ახლა კი ის მზად არის დახარისხებისთვის. თქვენ შეგიძლიათ გააანალიზოთ ის პროგრამა, როგორიცაა პითონი, ან შეინახოთ იგი და გააზიაროთ იგი. ასევე, თქვენ შეიძლება მოისურვოთ ინფორმაციის გადაცემა ან რედაქტირება ინფორმაციის გაზიარებამდე.