• Home
  • Corsi

    Informazioni sui corsi

    • Tutti i corsi
    • Diventa un insegnante
    • Profilo insegnante
    Fondamenti di programmazione: le basi del linguaggio C++

    Fondamenti di programmazione: le basi del linguaggio C++

    €29.99
    Read More
    D4F Games
  • Develop4fun
    • Chi siamo
    • Portfolio
    • Eventi
    • Galleria
    • Negozio
    • FAQ
  • Articoli
  • Contattaci
    • Categorie

      • Sviluppo
        • Linguaggio di programmazione
          • C#
          • C++
          • Javascript
          • Lua
        • Videogiochi
          • LOVE2D
          • Phaser 3
          • RayLib
          • Unity3D
          • Unreal Engine
        • Web
          • Backend
            • PHP e MySQL
          • CMS
          • Frontend
            • CSS
            • Html
            • Javascript
    • Login

Cerca

Hai qualche domanda?
contact@develop4fun.com
Develop4fun
  • Home
  • Corsi

    Informazioni sui corsi

    • Tutti i corsi
    • Diventa un insegnante
    • Profilo insegnante
    Fondamenti di programmazione: le basi del linguaggio C++

    Fondamenti di programmazione: le basi del linguaggio C++

    €29.99
    Read More
    D4F Games
  • Develop4fun
    • Chi siamo
    • Portfolio
    • Eventi
    • Galleria
    • Negozio
    • FAQ
  • Articoli
  • Contattaci
    • Categorie

      • Sviluppo
        • Linguaggio di programmazione
          • C#
          • C++
          • Javascript
          • Lua
        • Videogiochi
          • LOVE2D
          • Phaser 3
          • RayLib
          • Unity3D
          • Unreal Engine
        • Web
          • Backend
            • PHP e MySQL
          • CMS
          • Frontend
            • CSS
            • Html
            • Javascript
    • Login

Guida SEO

Home » Articoli » Il file robots.txt | Guida SEO

Il file robots.txt | Guida SEO

  • Pubblicato da Antonella De Chiara
  • Categorie Guida SEO, Linguaggi di Programmazione, Mac, PC, SEO, Web
  • Data 17 Dicembre 2019
  • Commenti 0 commenti
CSS
(Ultimo aggiornamento: 21 Settembre 2021)

In questo articolo della nostra guida SEO vedremo cos’è, a cosa serve e come funziona il file robots.txt, un file fondamentale in grado di incidere sull’indicizzazione del nostro sito web all’interno dei motori di ricerca.

Cos’è il file robots.txt

Il file robots.txt è un semplicissimo file di testo che va inserito (qualora lo si voglia utilizzare) nella cartella di root del proprio un sito Web e serve ad indicare agli spider dei motori di ricerca alcune semplici direttive circa l’accesso a determinati file o intere cartelle.

Grazie al file robots.txt potremo, ad esempio, chiedere ad uno specifico spider (ad esempio Googlebot) di non scansionare determinate cartelle (ad esempio cartelle con file riservati che non vogliamo siano raggiungibili tramite Google) oppure addirittura precludere l’accesso all’intero sito ad uno specifico spider (ci sono in giro molti robots piuttosto noiosi ed invasivi, magari di motori secondari ed inutili dal punto di vista del traffico in entrata).

Lo standard per l’esclusione dei robot (Robots Exclusion Standard) è dunque quel sistema che permette ai webmaster, programmatori e agli amministratori di sistema di avere il controllo su quante e quali pagine web far scansire e prelevare dagli spider (e da quali spider).

Come già detto, questi bot automatici effettuano un controllo preventivo per verificare la presenza di un file chiamato robots.txt che impedisce loro di accedere a determinate pagine o risorse. Tutti i robot affidabili rispettano le istruzioni scritte nel file.

Quindi, per escludere alcune pagine è sufficiente creare un normale file di testo e nominarlo robots.txt. All’interno verranno scritte delle istruzioni che possono impedire a tutti o alcuni spider la scansione di alcune o tutte le pagine del sito.

Una volta creato, il file robots.txt deve essere pubblicato nella directory principale del sito web.

Il file robots.txt utilizza due regole : User-agent e Disallow.

Il campo User-agent serve ad indicare a quale robot/spider le direttive successive sono rivolte. La sua sintassi è :

User-agent: [nome_dello_spider]  

Il campo Disallow serve a indicare a quali file e/o directory non può accedere lo spider indicato nel campo User-agent. La sintassi è :

Disallow: [nome_del_file_o_della_directory]    

Ecco dunque un esempio completo di file robots.txt che blocca del tutto Alexibot, impedisce a Google l’accesso ad alcuni file e directory e lascia libero accesso a tutti gli altri motori di ricerca.

Successivamente, potete analizzare altri esempi singoli.

User-agent: Alexibot
Disallow: /

User-agent: googlebot
Disallow: /password.html
Disallow: /preferiti.html
Disallow: /documenti/
Disallow: /database/

User-agent: *
Disallow:     
Disallow: /                                 ---> blocco per l'intero sito

Disallow: /directory-personale/             ---> blocco della directory [directory-personale] e del relativo contenuto

Disallow: /file-personale.html              ---> blocco della pagina [file-personale.html]

User-agent: Googlebot-Image
Disallow: /immagini/immagine-personale.jpg  ---> rimuove l'immagine [immagine-personale.jpg] da Google Images

User-agent: Googlebot-Image
Disallow: /                                 ---> rimuove tutte le immagine del sito da Google Images

Disallow: /*.mdb$                           ---> blocco di tutti i file di tipo [mdb]

Disallow: /asp*/                            ---> blocco di tutte le sottodirectory che iniziano con [asp]

Disallow: /*?                               ---> blocco di tutti gli URL che comprendono un punto interrogativo

Disallow: /*.doc$                           ---> blocco di tutti gli URL che terminano con [.doc]
                    

Altri esempi di file robots.txt

Per meglio capire il funzionamento di questo file vediamo di seguito alcuni esempi.

Ammettere tutti gli spider

Per consentire l’accesso a tutti gli spider senza restrizioni:

User-Agent: *
Disallow:

Si noti che questa è l’impostazione di “default” che equivale, nella sostanza, a non caricare il file robots.txt.

Escludere tutti gli spider

Se lo desideriamo possiamo, grazie al file robots.txt, bloccare l’indicizzazione dell’intero sito (ad esempio perché vogliamo che questo resti riservato a noi ed ai nostri pochi amici) :

User-agent: *
Disallow: /

Escludere uno spider specifico

Oppure, cosa più frequente, possiamo semplicemente escludere uno specifico spider dall’accesso alle pagine del nostro sito :

User-Agent: *
Disallow:

User-agent: SpiderSgradito
Disallow: /

Ammettere un solo spider nel file robots.txt

Supponiamo di voler autorizzare l’accesso al nostro sito solo allo spider di Google, bloccando tutti gli altri :

User-Agent: *
Disallow: /

User-agent: Googlebot
Disallow:

Conclusione

Ovviamente quelli visti sopra sono solo dei semplici esempi, ma le combinazioni sono moltissime e spesso piuttosto utili ; in ogni caso il consiglio è quello di NON utilizzare il file robots.txt se non si è sicuri che questo sia necessario e che le impostazioni inserite siano corrette ; se non siete sicuri di quello che state facendo sappiate che un errore potrebbe costare caro al vostro sito (il rischio è finire fuori dalle SERP !).

Una piccola nota conclusiva: se non caricate il file robots.txt nella root del sito vi troverete molto presto con il log degli errori pieno zeppo di errori 404…

Visualizzazioni post: 717

Tag:Alexibot, amministratore, bot automatici, Googlebot, Programmatore, Robots Exclusion Standard, robots.txt, SEO, SEO Specialist, sito Web, spider, User-agent, webmaster

  • Share:

ABOUT INSTRUCTOR

Antonella De Chiara
Antonella De Chiara

Appassionata di giochi di ruolo giapponesi, genere che ha scoperto grazie alla saga Final Fantasy e approfondito con i capolavori usciti negli ultimi anni, s’interessa al retrogaming, rigiocando e programmando vecchie glorie come Monkey Island, Prince of Persia o vecchi capolavori marchiati Nintendo.
Antonella comincia il suo percorso giornalistico in Italia, lavorando con Gamerepublic, PS Mania e Pokémon Mania. Si trasferisce in Francia per studiare la programmazione web e gamedev: grazie a questo percorso anomalo nasce Develop4fun.

Articolo precedente

Fra poco arrivano dei Tutorial in Italiano!
17 Dicembre 2019

Articolo successivo

Cos'è un plugin?
23 Dicembre 2019

Ti potrebbe anche piacere

Steam
Come pubblicare un videogioco su Steam?
21 Settembre, 2021
Money Game
Sviluppare Videogiochi: come fare un’indagine sul mercato
9 Settembre, 2021
Programmazione
5 regole base per iniziare qualsiasi progetto videoludico
20 Luglio, 2021

Lascia un commento Annulla risposta

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Cerca

Impara a programmare videogiochi web con Phaser 3

Impara a programmare videogiochi web con Phaser 3

€49.99
HTML e CSS: Corso di programmazione per principianti

HTML e CSS: Corso di programmazione per principianti

€69.99
[Lua & LOVE2D] Introduzione alla programmazione dei videogiochi

[Lua & LOVE2D] Introduzione alla programmazione dei videogiochi

€49.99
D4F Games

Ultimi articoli pubblicati

unity3d
Chi sono gli sviluppatori nel mondo dei videogiochi?
22Nov2021
[Unreal Engine] Un nuovo fantastico asset GRATUITO!
[Unreal Engine] Slay, un nuovo fantastico asset GRATUITO!
22Set2021
Steam
Come pubblicare un videogioco su Steam?
21Set2021

Develop4fun.it by Develop4fun.

Gestisci Consenso Cookie
Usiamo cookie per ottimizzare il nostro sito web ed i nostri servizi.
Funzionale Sempre attivo
L'archiviazione tecnica o l'accesso sono strettamente necessari al fine legittimo di consentire l'uso di un servizio specifico esplicitamente richiesto dall'abbonato o dall'utente, o al solo scopo di effettuare la trasmissione di una comunicazione su una rete di comunicazione elettronica.
Preferenze
L'archiviazione tecnica o l'accesso sono necessari per lo scopo legittimo di memorizzare le preferenze che non sono richieste dall'abbonato o dall'utente.
Statistiche
L'archiviazione tecnica o l'accesso che viene utilizzato esclusivamente per scopi statistici. L'archiviazione tecnica o l'accesso che viene utilizzato esclusivamente per scopi statistici anonimi. Senza un mandato di comparizione, una conformità volontaria da parte del vostro Fornitore di Servizi Internet, o ulteriori registrazioni da parte di terzi, le informazioni memorizzate o recuperate per questo scopo da sole non possono di solito essere utilizzate per l'identificazione.
Marketing
L'archiviazione tecnica o l'accesso sono necessari per creare profili di utenti per inviare pubblicità, o per tracciare l'utente su un sito web o su diversi siti web per scopi di marketing simili.
Gestisci opzioni Gestisci servizi Gestisci fornitori Per saperne di più su questi scopi
Preferenze
{title} {title} {title}