La tecnologia di ricerca AskCome funzionaL'algoritmo ExpertRank di Ask.com fornisce risultati di ricerca rilevanti, identificando i siti più autorevoli del web. La tecnologia di ricerca Ask non si limita ai più diffusi, ma punta ai migliori. Il nostro algoritmo ExpertRank va oltre la semplice popolarità (secondo cui le pagine vengono indicizzate solo in base al volume di link che rinviano a una determinata pagina) per determinare la popolarità tra quelle pagine considerate autorevoli sull'argomento di una determinata ricerca. Si tratta più precisamente della popolarità tematica. L'identificazione di argomenti (o "cluster"), di esperti di tali argomenti e della popolarità di milioni di pagine tra tali esperti, nel momento in cui un utente avvia una ricerca, richiede molti calcoli in più rispetto a quelli elaborati da altri motori di ricerca. Ne risulta una rilevanza superiore che spesso offre un sapore editoriale unico rispetto agli altri motori di ricerca. Domande frequenti sul web crawler AskIl web crawler Ask è un programma di indicizzazione (o crawler/spider). Il crawler raccoglie documenti dal web per arricchire l'indice in continuo aumento a cui attinge la funzionalità di ricerca avanzata di Ask.com e di altri siti web che hanno in licenza questa tecnologia di ricerca autore). La tecnologia di ricerca Ask si differenzia dalle altre perché analizza il web così come si presenta, per comunità tematiche. Tale processo inizia con la creazione di un indice esauriente e d'alta qualità. Il web crawler è uno strumento essenziale per seguire questo metodo perché produce i risultati di ricerca più aggiornati. In questa pagina trovi le risposte alle domande più frequenti su come funziona il web crawler Ask. Domande frequenti1. Cos'è un web crawler/web spider?2. Perché Ask.com utilizza dei web crawler? 3. Come funziona il web crawler? 4. Con quale frequenza il crawler Ask indicizza le pagine del mio sito? 5. Posso impedire che il motore di ricerca di Ask.com mostri una copia cache della mia pagina? 6. Ask.com rispetta le norme Robot Exclusion Standard? 7. Posso impedire che il crawler Ask indicizzi tutto il mio sito/URL o in parte? 8. Dove metto il file robots.txt? 9. Come faccio a sapere se il crawler Ask ha visitato il mio sito/URL? 10. Come impedisco al crawler Ask di indicizzare tutto il mio sito/URL o in parte? 11. Perché il crawler Ask scarica più volte la stessa pagina sul mio sito? 12. Perché il crawler Ask cerca di scaricare link erronei dal mio server? O da un server che non esiste? 13. Come ha trovato il mio URL il web crawler Ask? 14. Che tipi di link segue il crawler Ask? 15. Il crawler Ask comprende URL dinamici? 16. Perché il crawler Ask non ha visitato il mio URL? 17. Il crawler Ask supporta la compressione HTTP? 18. Come registro il mio sito/URL in Ask.com dimodoché sia indicizzato? 19. Perché le pagine che ha indicizzato il crawler Ask non figurano nei risultati di ricerca? 20. Posso controllare il numero di richieste di scansione inviate dal crawler Ask al mio sito? 21. Come identifico il crawler Ask? 22. Ask.com riconosce il protocollo sitemap? 23. Come aggiungo la casella di ricerca Ask.com al mio sito web? 24. Per avere maggiori informazioni? D: Cos'è un web crawler/web spider?R: Un web crawler (detto anche spider o robot) è un programma che identifica i collegamenti ipertestuali presenti su un sito web, recuperandone e indicizzandone le pagine per documentare il sito ai fini della ricerca. I crawler sono innocui e non recano danni né ai siti né ai server.D: Perché Ask.com utilizza dei web crawler?R: Ask.com utilizza dei web crawler per riunire dati non ancora elaborati e raccogliere informazioni per arricchire il nostro indice di ricerca in continua crescita. L'attività del crawler assicura che le informazioni dei nostri risultati siano il più possibile aggiornate e pertinenti. I nostri crawler sono ideati molto bene e attivati da professionisti, fornendo così un servizio inestimabile in conformità con le norme di ricerca del settore.D: Come funziona il web crawler?Il crawler va a un indirizzo web (URL) e ne scarica la pagina HTML.
D: Con quale frequenza il crawler Ask indicizza le pagine del mio sito?R: Il crawler scarica solo una pagina alla volta dal tuo sito (precisamente, dal tuo indirizzo IP). Dopo aver ricevuto la prima pagina, fa un intervallo prima di scaricare quella successiva. Questo intervallo varia da 0,1 secondo a qualche ora. Più velocemente il sito risponde al crawler quando richiede pagine, più breve è l'intervallo.D: Posso impedire che il motore di ricerca di Ask.com mostri una copia cache della mia pagina?R: Sì. Rispettiamo il meta tag "noarchive". Inserendo il seguente tag nella tua pagina HTML, non forniremo agli utenti una copia archiviata del documento.< META NAME = "ROBOTS" CONTENT = "NOARCHIVE" > Se si desidera specificare questa restrizione solo per Ask.com, basta mettere "teoma" al posto di "robots".
D: Dove metto il file robots.txt?R: Metti il file all'inizio del tuo sito web. Ad esempio, se www.mysite.com è il nome del tuo sito, inserisci il file robots.txt come indicato http://www.mysite.com/robots.txt.D: Come faccio a sapere se il crawler Ask ha visitato il mio sito/URL?R: Per determinare se il crawler Ask ha visitato o no il tuo sito, controlla i log del server. Devi cercare in particolare la seguente stringa user-agent:
D: Come impedisco al crawler Ask di indicizzare tutto il mio sito/URL o in parte?R: Inserendo il seguente comando nella sezione <HEAD> della tua pagina HTML, il crawler Ask non indicizza il documento, quindi la tua pagina non sarà aggiunta ai nostri risultati di ricerca:
D: Perché il crawler Ask scarica più volte la stessa pagina sul mio sito?R: Di solito, durante una scansione, il crawler Ask scarica solo una copia di ogni file da ciascun sito. Salvo in due casi:
D: Perché il crawler Ask cerca di scaricare link erronei dal mio server? O da un server che non esiste?R: Avere molti link interrotti od obsoleti in qualsiasi momento è una prerogativa del web. Ogni volta che una pagina web contiene un link interrotto od obsoleto verso il tuo sito o un sito che non è mai esistito o che ha smesso di esistere, Ask.com visita quel link cercando di trovare la pagina web in questione. Per questo può succedere che il crawler chieda URL che non esistono più o non sono mai esistiti, oppure che cerchi di inoltrare richieste HTTP verso indirizzi IP che non hanno più o non hanno mai avuto un web server. Il crawler non genera indirizzi a caso bensì segue link. Ecco perché è possibile notare attività su una macchina che non è un web server. D: Come ha trovato il mio URL il web crawler Ask?R: Il crawler Ask trova pagine seguendo i link (i tag HREF in HTML) presenti in altre pagine. Quando il crawler trova una pagina che contiene frame (cioè un frameset), il crawler scarica i frame componenti e ne include il contenuto come parte della pagina d'origine. Il crawler Ask non indicizza i frame componenti come URL a meno che non siano collegati mediante HREF da altre pagine.D: Che tipi di link segue il crawler Ask?R: Il crawler Ask segue link HREF, link SRC e reindirizzamenti.D: Il crawler Ask comprende URL dinamici?R: Il nostro indice comprende un numero scelto di URL dinamici. Prima di scaricarli, li scansioniamo per rilevare possibili duplicati.D: Perché il crawler Ask non ha visitato il mio URL?R: Se il crawler Ask non ha visitato il tuo URL è perché non ha trovato link che portano al tuo URL su altre pagine (URL) visitate.D: Il crawler Ask supporta la compressione HTTP?R: Sì, certo. Perché la compressione HTTP sia possibile, entrambi il client e il server HTTP devono supportare questa funzione. Se supportata, permette ai web server di inviare documenti compressi (in formato di compressione gzip o altri) anziché solo documenti di dimensioni reali. Ciò permette al server e al client un notevole risparmio sulla larghezza di banda. La compressione aggiunge un po' di lavoro alla CPU del server e del client per la codificazione/decodificazione, ma ne vale la pena. Se si utilizza un comune metodo di compressione come gzip, è facile poter ridurre la grandezza del file di circa il 75%.D: Come registro il mio sito/URL in Ask.com dimodoché sia indicizzato?R: Siamo lieti che ti interessi aggiungere il tuo sito al motore di ricerca di Ask.com. È importante notare che non offriamo più un programma di sottoscrizione al sito. Visti i risultati dei recenti miglioramenti apportati alla nostra tecnologia, siamo sicuri che indicizzeremo sempre più pagine web e che il tuo sito figurerà presto nel nostro indice di ricerca, come risultato della scansione continua effettuata dal nostro crawler per trovare sempre nuovi siti e contenuti aggiornati.Se sei il proprietario/webmaster di un sito, puoi anche cercare risorse online per ottenere consigli e informazioni utili su come migliorare il tuo sito web e impostare il tuo web server, per ottimizzare il modo in cui i motori di ricerca analizzano contenuti web, come li indicizzano e come reagiscono ai diversi tipi di parole chiave di ricerca. D: Perché le pagine che ha indicizzato il crawler Ask non figurano nei risultati di ricerca?R: Non allarmarti se non visualizzi le tue pagine tra i nostri risultati di ricerca. Poiché siamo molto attenti alla qualità del nostro indice, abbiamo bisogno di un po' di tempo per analizzare i risultati di una scansione ed elaborarli per includerli nel nostro database. Ask non include necessariamente nel suo indice ogni sito che ha scansionato.D: Posso controllare il numero di richieste di scansione inviate dal crawler Ask al mio sito?R: Sì. Supportiamo l'istruzione del robots.txt sugli intervalli di scansione. Grazie a questa istruzione, puoi specificare l'intervallo minimo tra due richieste consecutive emesse dal nostro spider verso il tuo sito.D: Come identifico il crawler Ask?R: Lo User Agent non costituisce una garanzia di autenticità del crawler Ask visto che utenti malintenzionati possono imitarne facilmente le proprietà. Per identificare effettivamente il crawler Ask è necessario eseguire un doppio controllo del DNS. Partendo dall'indirizzo IP del crawler Ask, effettuare una risoluzione inversa che permette di risalire al DNS per accertarsi che l'indirizzo IP appartenga veramente al dominio ask.com. Poi, confrontare il DNS con il nome dell'host per verificare che l'indirizzo IP ottenuto corrisponda all'originale.D: Ask.com riconosce il protocollo sitemap?R: Sì, Ask.com riconosce il protocollo open format sitemap. Dopo aver preparato una sitemap, aggiungere la seguente indicazione di percorso che permette ai crawler di individuare i siti automaticamente: SITEMAP: http://www.URL-del-tuo-file-sitemap.xml Il percorso del file sitemap deve indicare l’URL per intero. È anche possibile segnalare le sitemap con l’URL di comando ping: http://submissions.ask.com/ping?sitemap=http%3A//www.URL-del-tuo-file-sitemap.xml Ricordiamo che segnalare le sitemap non garantisce l’inserimento del sito nell’indice dei motori di ricerca. Per ulteriori informazioni, visitare il sito web di Sitemaps al seguente indirizzo: http://www.sitemaps.org/it/. D: Come aggiungo la casella di ricerca Ask.com al mio sito web?R: È facile! Puoi generare il codice sorgente per inserire la casella di ricerca Ask.com nel tuo sito cliccando qui. Che tipo di codifica dei caratteri devo utilizzare?Di solito i termini di ricerca inviati ad Ask.com sono in UTF-8. In caso contrario, è necessario specificare il tipo di codifica dei caratteri utilizzato per il proprio sito nel valore del campo modulo nascosto del "qenc" nel codice sorgente. Basta aggiungere le seguenti informazioni nel codice sorgente: <input type="hidden" name="qenc" value="codifica dei caratteri"/> È importante comunicarci il tipo di codifica utilizzato in modo che possiamo interpretare correttamente una richiesta. Infatti, senza questa informazione, i termini di ricerca immessi da un utente che contengono caratteri accentati o non latini possono risultare incompleti o illeggibili (di solito questi caratteri sono sostituiti da punti interrogativi). In entrambi i casi la ricerca non soddisferà gli utenti. Le seguenti codifiche sono attualmente supportate dal parametro "qenc":
Di solito il tipo di codifica utilizzato in un sito web è specificato nelle informazioni META delle pagine html. Visualizza la pagina html in cui desideri aggiungere la casella di ricerca Ask e cerca il seguente testo: <meta http-equiv="content-type" content="text/html; charset=ISO-8859-1">. Il charset specifica la codifica dei caratteri utilizzati nel sito. In questo esempio, il charset indica che la codifica dei caratteri di questa pagina è ISO-8859-1 (o Latin-1). Pertanto è necessario aggiornare il codice del modulo d'esempio HTML sopraindicato, mettendo "iso-8859-1" come valore del campo modulo nascosto del "qenc". E se tra le codifiche supportate non c'è il tipo di codifica del mio sito?Se la codifica del tuo sito non figura tra quelle elencate sopra e vuoi aggiungere una casella di ricerca Ask alla tua pagina, contatta il nostro Servizio assistenza e invia le seguenti informazioni:
Faremo del nostro meglio per fornire assistenza per la codifica richiesta e ti risponderemo non appena saremo pronti per supportare il traffico del tuo sito. D: Per avere maggiori informazioni?R: Contattare il nostro Servizio assistenza.Si prega di notare che non possiamo onorare gli e-mail relativi agli aggiornamenti del tuo sito/URL o le richieste di indicizzazione. |