Dieser Artikel von Wikipedia ist u.U. veraltet. Die neue Version gibt es hier. Ein Webcrawler ist ein Computerprogramm das das World Wide Web automatisch durchsucht indem es wie beim über Hyperlinks von einer Webseite zur nächsten gelangt. werden vor allem in Suchmaschinen eingesetzt. Dabei werden alle bisher gefundenen URLs gespeichert und der Reihe nach vom besucht. Alle dort gefundenen Hyperlinks werden zu Liste der bekannten URLs hinzugefügt so dass diese Weise theoretisch das gesamte miteinander verbundene durchsucht werden kann. In der Praxis wird oft eine Auswahl getroffen und der Prozess irgendwann beendet und von vorne begonnen. Webcrawler eine spezielle Art von Bots und werden auch als Spinnen bezeichnet da sich sich wie diese einem Netz fortbewegen.
Ja nach Aufgabe des Webcrawlers wird Inhalt der gefundenen Webseiten beispielsweise mittels Indexierung ausgewertet und gespeichert um ein späteres den so gesammelten Daten zu ermöglichen. Webcrawler auch zum Data Mining und zur Untersuchung des Internets ( Webometrie ) eingesetzt und müssen nicht zwangsläufig auf WWW beschränkt sein. Ein Großteil des gesamten wird jedoch von Webcrawlern und damit auch bekannten Suchmaschinen nicht erfasst da viele Inhalte über einfache Links sondern beispielsweise nur über und zugangsbeschränkte Portale erreichbar sind. Man spricht diesen Bereichen auch vom " Deep Web ".
Mit Hilfe des Robots Exclusion Standards ein Webseitenbetreiber in der Datei robots.txt und in bestimmten Meta-Tags im HTML -Header einem Webcrawler mitteilen welche Seiten er soll und welche nicht sofern sich der an das Protokoll hält.
Eine besondere Form von Webcrawlern sind Software-Agenten bei denen eine Menge von autonomen das Web gemeinsam durchsuchen.