Web · Immagini

Ask.com Italia: Chi siamo

La tecnologia di ricerca Ask

Come funziona

L'algoritmo ExpertRank di Ask.com fornisce risultati di ricerca rilevanti, identificando i siti più autorevoli del web. La tecnologia di ricerca Ask non si limita ai più diffusi, ma punta ai migliori. Il nostro algoritmo ExpertRank va oltre la semplice popolarità (secondo cui le pagine vengono indicizzate solo in base al volume di link che rinviano a una determinata pagina) per determinare la popolarità tra quelle pagine considerate autorevoli sull'argomento di una determinata ricerca. Si tratta più precisamente della popolarità tematica. L'identificazione di argomenti (o "cluster"), di esperti di tali argomenti e della popolarità di milioni di pagine tra tali esperti, nel momento in cui un utente avvia una ricerca, richiede molti calcoli in più rispetto a quelli elaborati da altri motori di ricerca. Ne risulta una rilevanza superiore che spesso offre un sapore editoriale unico rispetto agli altri motori di ricerca.

Domande frequenti sul web crawler Ask

Il web crawler Ask è un programma di indicizzazione (o crawler/spider). Il crawler raccoglie documenti dal web per arricchire l'indice in continuo aumento a cui attinge la funzionalità di ricerca avanzata di Ask.com e di altri siti web che hanno in licenza questa tecnologia di ricerca autore).

La tecnologia di ricerca Ask si differenzia dalle altre perché analizza il web così come si presenta, per comunità tematiche. Tale processo inizia con la creazione di un indice esauriente e d'alta qualità. Il web crawler è uno strumento essenziale per seguire questo metodo perché produce i risultati di ricerca più aggiornati.

In questa pagina trovi le risposte alle domande più frequenti su come funziona il web crawler Ask.

Domande frequenti

1. Cos'è un web crawler/web spider?

2. Perché Ask.com utilizza dei web crawler?

3. Come funziona il web crawler?

4. Con quale frequenza il crawler Ask indicizza le pagine del mio sito?

5. Posso impedire che il motore di ricerca di Ask.com mostri una copia cache della mia pagina?

6. Ask.com rispetta le norme Robot Exclusion Standard?

7. Posso impedire che il crawler Ask indicizzi tutto il mio sito/URL o in parte?

8. Dove metto il file robots.txt?

9. Come faccio a sapere se il crawler Ask ha visitato il mio sito/URL?

10. Come impedisco al crawler Ask di indicizzare tutto il mio sito/URL o in parte?

11. Perché il crawler Ask scarica più volte la stessa pagina sul mio sito?

12. Perché il crawler Ask cerca di scaricare link erronei dal mio server? O da un server che non esiste?

13. Come ha trovato il mio URL il web crawler Ask?

14. Che tipi di link segue il crawler Ask?

15. Il crawler Ask comprende URL dinamici?

16. Perché il crawler Ask non ha visitato il mio URL?

17. Il crawler Ask supporta la compressione HTTP?

18. Come registro il mio sito/URL in Ask.com dimodoché sia indicizzato?

19. Perché le pagine che ha indicizzato il crawler Ask non figurano nei
risultati di ricerca?


20. Posso controllare il numero di richieste di scansione inviate dal crawler Ask al mio sito?

21. Come identifico il crawler Ask?

22. Ask.com riconosce il protocollo sitemap?

23. Come aggiungo la casella di ricerca Ask.com al mio sito web?

24. Per avere maggiori informazioni?


D: Cos'è un web crawler/web spider?

R: Un web crawler (detto anche spider o robot) è un programma che identifica i collegamenti ipertestuali presenti su un sito web, recuperandone e indicizzandone le pagine per documentare il sito ai fini della ricerca. I crawler sono innocui e non recano danni né ai siti né ai server.


D: Perché Ask.com utilizza dei web crawler?

R: Ask.com utilizza dei web crawler per riunire dati non ancora elaborati e raccogliere informazioni per arricchire il nostro indice di ricerca in continua crescita. L'attività del crawler assicura che le informazioni dei nostri risultati siano il più possibile aggiornate e pertinenti. I nostri crawler sono ideati molto bene e attivati da professionisti, fornendo così un servizio inestimabile in conformità con le norme di ricerca del settore.


D: Come funziona il web crawler?

Il crawler va a un indirizzo web (URL) e ne scarica la pagina HTML.

  • Segue i collegamenti ipertestuali presenti sulla pagina, ossia gli URL sullo stesso sito o su altri siti.

  • Aggiunge nuovi URL alla lista di URL da scansionare. Ripete continuamente questa funzione, scoprendo nuovi URL, seguendo link e scaricandoli.

  • Il crawler esclude alcuni URL se ne ha già scaricati a sufficienza da un sito web o se un URL sembra essere il duplicato di un altro URL scaricato in precedenza.

  • I file degli URL scansionati vengono poi integrati in un catalogo di ricerca. Questi URL sono visualizzati nei risultati di ricerca sul sito alimentato dalla tecnologia Ask, quando la ricerca effettuata corrisponde al contenuto di tali URL.

D: Con quale frequenza il crawler Ask indicizza le pagine del mio sito?

R: Il crawler scarica solo una pagina alla volta dal tuo sito (precisamente, dal tuo indirizzo IP). Dopo aver ricevuto la prima pagina, fa un intervallo prima di scaricare quella successiva. Questo intervallo varia da 0,1 secondo a qualche ora. Più velocemente il sito risponde al crawler quando richiede pagine, più breve è l'intervallo.

D: Posso impedire che il motore di ricerca di Ask.com mostri una copia cache della mia pagina?

R: Sì. Rispettiamo il meta tag "noarchive". Inserendo il seguente tag nella tua pagina HTML, non forniremo agli utenti una copia archiviata del documento.
< META NAME = "ROBOTS" CONTENT = "NOARCHIVE" >

Se si desidera specificare questa restrizione solo per Ask.com, basta mettere "teoma" al posto di "robots".

D: Ask.com rispetta le norme Robot Exclusion Standard?

R: Sì, rispettiamo le norme Robots Exclusion Standard (RES) del 1994, parte del Robot Exclusion Protocol. Il Robots Exclusion Protocol è un metodo che permette agli amministratori dei siti web di specificare quali parti del loro sito devono essere escluse ai robot. Per maggiori informazioni sul RES e sul Robot Exclusion Protocol, visitare http://www.robotstxt.org/wc/exclusion.html.

D: Posso impedire che il crawler Ask indicizzi tutto il mio sito/URL o in parte?

R: Sì. Il crawler Ask si attiene ai tag che gli "chiedono" di non indicizzare tutto un determinato URL o in parte. Per specificare che il crawler Ask visiti solo le pagine il cui percorso inizia con /public, basta aggiungere quanto segue:

# Permette solo determinate directory
User-agent: Teoma
Disallow: /
Allow: /public


D: Dove metto il file robots.txt?

R: Metti il file all'inizio del tuo sito web. Ad esempio, se www.mysite.com è il nome del tuo sito, inserisci il file robots.txt come indicato http://www.mysite.com/robots.txt.

D: Come faccio a sapere se il crawler Ask ha visitato il mio sito/URL?

R: Per determinare se il crawler Ask ha visitato o no il tuo sito, controlla i log del server. Devi cercare in particolare la seguente stringa user-agent:

User-Agent: Mozilla/2.0 (compatible; Ask Jeeves/Teoma)


D: Come impedisco al crawler Ask di indicizzare tutto il mio sito/URL o in parte?

R: Inserendo il seguente comando nella sezione <HEAD> della tua pagina HTML, il crawler Ask non indicizza il documento, quindi la tua pagina non sarà aggiunta ai nostri risultati di ricerca:

< META NAME = "ROBOTS" CONTENT = "NOINDEX" >

Questi comandi comunicano al crawler Ask di indicizzare il documento, senza seguirne i collegamenti ipertestuali:

< META NAME = "ROBOTS" CONTENT = "NOFOLLOW" >

È possibile escludere tutte le directory dalle scansioni successive utilizzando il seguente comando:

< META NAME = "ROBOTS" CONTENT = "NONE" >

Vedi http://www.robotstxt.org/wc/exclusion.html#meta per maggiori informazioni.



D: Perché il crawler Ask scarica più volte la stessa pagina sul mio sito?

R: Di solito, durante una scansione, il crawler Ask scarica solo una copia di ogni file da ciascun sito. Salvo in due casi:

  • Quando un URL contiene comandi che "reindirizzano" il crawler a un altro URL. Questo è possibile con il seguente comando HTML:

    < META HTTP-EQUIV="REFRESH"
    CONTENT="0; URL=http://www.your page address here.html" >

    oppure con i codici di stato HTTP 301 o 302. In questo caso il crawler scarica la seconda pagina al posto della prima. Se molti URL reindirizzano alla stessa pagina, quest'ultima può essere scaricata molte volte prima che il crawler si renda conto che si tratta di duplicati.

  • Quando una pagina HTML è un "frameset." Questo tipo di pagina è composto da diverse pagine, dette "frames." Se molte pagine frameset sono composte dallo stesso frame, allora la pagina componente può essere scaricata molte volte prima che il crawler si renda conto che si tratta in realtà dello stesso componente.

D: Perché il crawler Ask cerca di scaricare link erronei dal mio server? O da un server che non esiste?

R: Avere molti link interrotti od obsoleti in qualsiasi momento è una prerogativa del web. Ogni volta che una pagina web contiene un link interrotto od obsoleto verso il tuo sito o un sito che non è mai esistito o che ha smesso di esistere, Ask.com visita quel link cercando di trovare la pagina web in questione. Per questo può succedere che il crawler chieda URL che non esistono più o non sono mai esistiti, oppure che cerchi di inoltrare richieste HTTP verso indirizzi IP che non hanno più o non hanno mai avuto un web server. Il crawler non genera indirizzi a caso bensì segue link. Ecco perché è possibile notare attività su una macchina che non è un web server.


D: Come ha trovato il mio URL il web crawler Ask?

R: Il crawler Ask trova pagine seguendo i link (i tag HREF in HTML) presenti in altre pagine. Quando il crawler trova una pagina che contiene frame (cioè un frameset), il crawler scarica i frame componenti e ne include il contenuto come parte della pagina d'origine. Il crawler Ask non indicizza i frame componenti come URL a meno che non siano collegati mediante HREF da altre pagine.

D: Che tipi di link segue il crawler Ask?

R: Il crawler Ask segue link HREF, link SRC e reindirizzamenti.

D: Il crawler Ask comprende URL dinamici?

R: Il nostro indice comprende un numero scelto di URL dinamici. Prima di scaricarli, li scansioniamo per rilevare possibili duplicati.

D: Perché il crawler Ask non ha visitato il mio URL?

R: Se il crawler Ask non ha visitato il tuo URL è perché non ha trovato link che portano al tuo URL su altre pagine (URL) visitate.

D: Il crawler Ask supporta la compressione HTTP?

R: Sì, certo. Perché la compressione HTTP sia possibile, entrambi il client e il server HTTP devono supportare questa funzione. Se supportata, permette ai web server di inviare documenti compressi (in formato di compressione gzip o altri) anziché solo documenti di dimensioni reali. Ciò permette al server e al client un notevole risparmio sulla larghezza di banda. La compressione aggiunge un po' di lavoro alla CPU del server e del client per la codificazione/decodificazione, ma ne vale la pena. Se si utilizza un comune metodo di compressione come gzip, è facile poter ridurre la grandezza del file di circa il 75%.

D: Come registro il mio sito/URL in Ask.com dimodoché sia indicizzato?

R: Siamo lieti che ti interessi aggiungere il tuo sito al motore di ricerca di Ask.com. È importante notare che non offriamo più un programma di sottoscrizione al sito. Visti i risultati dei recenti miglioramenti apportati alla nostra tecnologia, siamo sicuri che indicizzeremo sempre più pagine web e che il tuo sito figurerà presto nel nostro indice di ricerca, come risultato della scansione continua effettuata dal nostro crawler per trovare sempre nuovi siti e contenuti aggiornati.

Se sei il proprietario/webmaster di un sito, puoi anche cercare risorse online per ottenere consigli e informazioni utili su come migliorare il tuo sito web e impostare il tuo web server, per ottimizzare il modo in cui i motori di ricerca analizzano contenuti web, come li indicizzano e come reagiscono ai diversi tipi di parole chiave di ricerca.

D: Perché le pagine che ha indicizzato il crawler Ask non figurano nei risultati di ricerca?

R: Non allarmarti se non visualizzi le tue pagine tra i nostri risultati di ricerca. Poiché siamo molto attenti alla qualità del nostro indice, abbiamo bisogno di un po' di tempo per analizzare i risultati di una scansione ed elaborarli per includerli nel nostro database. Ask non include necessariamente nel suo indice ogni sito che ha scansionato.

D: Posso controllare il numero di richieste di scansione inviate dal crawler Ask al mio sito?

R: Sì. Supportiamo l'istruzione del robots.txt sugli intervalli di scansione. Grazie a questa istruzione, puoi specificare l'intervallo minimo tra due richieste consecutive emesse dal nostro spider verso il tuo sito.

D: Come identifico il crawler Ask?

R: Lo User Agent non costituisce una garanzia di autenticità del crawler Ask visto che utenti malintenzionati possono imitarne facilmente le proprietà. Per identificare effettivamente il crawler Ask è necessario eseguire un doppio controllo del DNS. Partendo dall'indirizzo IP del crawler Ask, effettuare una risoluzione inversa che permette di risalire al DNS per accertarsi che l'indirizzo IP appartenga veramente al dominio ask.com. Poi, confrontare il DNS con il nome dell'host per verificare che l'indirizzo IP ottenuto corrisponda all'originale.

D: Ask.com riconosce il protocollo sitemap?

R: Sì, Ask.com riconosce il protocollo open format sitemap. Dopo aver preparato una sitemap, aggiungere la seguente indicazione di percorso che permette ai crawler di individuare i siti automaticamente:

SITEMAP: http://www.URL-del-tuo-file-sitemap.xml

Il percorso del file sitemap deve indicare l’URL per intero. È anche possibile segnalare le sitemap con l’URL di comando ping:

http://submissions.ask.com/ping?sitemap=http%3A//www.URL-del-tuo-file-sitemap.xml

Ricordiamo che segnalare le sitemap non garantisce l’inserimento del sito nell’indice dei motori di ricerca. Per ulteriori informazioni, visitare il sito web di Sitemaps al seguente indirizzo: http://www.sitemaps.org/it/.

D: Come aggiungo la casella di ricerca Ask.com al mio sito web?

R: È facile! Puoi generare il codice sorgente per inserire la casella di ricerca Ask.com nel tuo sito cliccando qui.

Che tipo di codifica dei caratteri devo utilizzare?

Di solito i termini di ricerca inviati ad Ask.com sono in UTF-8. In caso contrario, è necessario specificare il tipo di codifica dei caratteri utilizzato per il proprio sito nel valore del campo modulo nascosto del "qenc" nel codice sorgente. Basta aggiungere le seguenti informazioni nel codice sorgente:

<input type="hidden" name="qenc" value="codifica dei caratteri"/>

È importante comunicarci il tipo di codifica utilizzato in modo che possiamo interpretare correttamente una richiesta. Infatti, senza questa informazione, i termini di ricerca immessi da un utente che contengono caratteri accentati o non latini possono risultare incompleti o illeggibili (di solito questi caratteri sono sostituiti da punti interrogativi). In entrambi i casi la ricerca non soddisferà gli utenti.

Le seguenti codifiche sono attualmente supportate dal parametro "qenc":

  • utf-8
  • iso-8859-1
  • shift_jis
  • euc-jp
Come identifico la codifica del mio sito web?

Di solito il tipo di codifica utilizzato in un sito web è specificato nelle informazioni META delle pagine html. Visualizza la pagina html in cui desideri aggiungere la casella di ricerca Ask e cerca il seguente testo: <meta http-equiv="content-type" content="text/html; charset=ISO-8859-1">. Il charset specifica la codifica dei caratteri utilizzati nel sito. In questo esempio, il charset indica che la codifica dei caratteri di questa pagina è ISO-8859-1 (o Latin-1). Pertanto è necessario aggiornare il codice del modulo d'esempio HTML sopraindicato, mettendo "iso-8859-1" come valore del campo modulo nascosto del "qenc".

E se tra le codifiche supportate non c'è il tipo di codifica del mio sito?

Se la codifica del tuo sito non figura tra quelle elencate sopra e vuoi aggiungere una casella di ricerca Ask alla tua pagina, contatta il nostro Servizio assistenza e invia le seguenti informazioni:

  • L'URL della pagina in cui vuoi aggiungere la casella di ricerca Ask.com
  • La codifica dei caratteri per cui è necessaria l'assistenza di Ask.com

Faremo del nostro meglio per fornire assistenza per la codifica richiesta e ti risponderemo non appena saremo pronti per supportare il traffico del tuo sito.

D: Per avere maggiori informazioni?

R: Contattare il nostro Servizio assistenza.

Si prega di notare che non possiamo onorare gli e-mail relativi agli aggiornamenti del tuo sito/URL o le richieste di indicizzazione.
© 2012 Ask.com