Cos’è il Web Scraping?

1 January 2021 moscarielloandrea.it 0 Comments

Cos’è il Web Scraping e a cosa serve? E’ Legale? Come Funziona? E ancora.. come può tornarmi utile?

Quando parlo di Web Scraping ai miei clienti, queste sono le domande che mi vengono poste più frequentemente.

Non perdiamo tempo.. rispondiamo subito alle domande e poi approfondiamo il discorso.

Cos’è il Web Scraping? Il Web Scraping serve ad estrapolare dati in modo massivo e del tutto automatizzato da un sito web. Hai presente quando facevi copia e incolla, uno per uno, di numeri di telefono dal sito delle pagine gialle e le copiavi in un file Excel? Bene se avessi conosciuto il Web Scraping prima avresti certamente evitato giorni e giorni di noiosissimo lavoro, lasciando che il computer facesse tutto al posto tuo.

E’ Legale? SI, assolutamente. Le informazioni rese pubbliche servono per essere fruite. Se prese con il copia e incolla o in modo automatizzato il discorso non cambia. Non è rilevante, poichè stiamo attingendo a informazioni di pubblico dominio. E cosa c’è di più pubblico di un sito aperto a tutti?

Attenzione però all’uso che se ne fa! Estrapolare contatti ad esempio e poi usarli per bersagliarli di pubblicità, non è consentito dalla legge.

Come funziona? Cercherò di spiegarlo in modo semplice. Ogni sito che vediamo è in realtà un insieme di righe di codice. All’interno di questo codice ci sono gli elementi, ad esempio immagini, testi, pulsanti e altro. Questi elementi possono avere, o sarebbe meglio dire, dovrebbero avere, un identificativo “id” e/o delle “classi” che servono appunto rispettivamente ad identificare in maniera univoca l’elemento e nel caso delle classi a definirne l’aspetto. Ma vediamo quindi nello specifico come funziona!

Entriamo nel vivo!

<div class="product-list">
   <article class="product-list-item col-6">
      <h1 class="h1 product-list-name"> pantaloni </h1>
      <div class="h4 product-list-item_price"> 6,50 € </div>
   </article>

   <article class="product-list-item col-6">
      <h1 class="h1 product-list-name"> maglietta </h1>
      <div class="h4 product-list-item_price"> 4,98 € </div>
   </article>

   <article class="product-list-item col-6">
      <h1 class="h1 product-list-name"> cappellino </h1>
      <div class="h4 product-list-item_price"> 2,47 € </div>
   </article>

   <article class="product-list-item col-6">
      <h1 class="h1 product-list-name"> sciarpa </h1>
      <div class="h4 product-list-item_price"> 1,78 € </div>
   </article>
</div>

Questo breve codice rappresenta in modo molto sintetico una lista di 4 prodotti. Come possiamo notare, ognuno di essi ha un nome preciso e un prezzo specifico, ma tutti condividono la stessa classe sia per il prezzo (class=”h4 product-list-item_price”) che per il titolo (class=”h1 product-list-name”).

Quello che fa uno scraper è quello di individuare all’interno di ogni pagina del sito, tutte quei dati che abbiano queste informazioni comuni. Ovvero, basterà individuare il nome della classe (in questo caso, prendiamo come esempio la classe “h1 product-list-name”) per estrapolare una lista di tutti i nomi degli articoli presenti nel sito web.

Il risultato sarà:

"Nome"
"pantalone"
"maglietta"
"cappellino"
"sciarpa"

Se volessi estrapolare altri dati come il prezzo basterà individuare la classe relativa al prezzo (in questo caso, “h4 product-list-item_price”) per ottenere tutti i prezzi relativi ai prodotti all’interno di ogni pagina del sito.

Il risultato quindi sarà:

"Nome","Prezzo"
"pantalone","6,50 €"
"maglietta","4,98 €"
"cappellino","2,47 €"
"sciarpa","1,78 €"

Come faccio ad usare queste informazioni disordinate?

Questi dati vengono solitamente consegnati in CSV e possono essere letti tramite una tabella excel ordinata o caricati all’interno del vs. gestionale o sito internet.

Grazie per aver letto questo articolo!

“Non esiste dato caricato su internet, che non possa essere anche scaricato “
— Andrea Moscariello

M	T	W	T	F	S	S
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31