Hvordan kan søgemaskinerne gennemsøge internettet så hurtigt?

Søgetjenesterne på nettet gennemsøger milliarder af websider på få sekunder. Hvordan kan de det?

1. september 2009

Internettet rummer i dag over 100 milliarder sider. Hvis søgemaskinerne skulle igennem dem alle, hver gang de fik en forespørgsel, ville det tage mange uger, før vi fik svar. For at spare tid har de forskellige søgetjenester som Yahoo og Google på forhånd oprettet gigantiske databaser over alle fornuftige søgeord samt lister over websider, som ordet optræder på. Hvis en bruger indtaster “Jupiter”, vil søgemaskinen slå op i sin database under ”Jupiter” og finde adresserne på de tusindvis af websider, der indeholder ordet. Hvis brugeren indtaster ”Jupiter” og “Galileo,” vil søgemaskinen finde de sider, der figurerer både under Jupiters og Galileos liste. Hvilke sider, der står øverst på listen, er forskelligt fra søgetjeneste til søgetjeneste. Nogle vægter en webside højt, hvis søgeordet optræder mange gange, andre tildeler høj relevans, efter hvor mange der linker til siden. Arbejdet er for møjsommeligt og tidskrævende til, at mennesker kan oprette og vedligeholde databaserne. Derfor bruger de fleste søgetjenester et computerprogram, kaldet en crawler eller robot, der automatisk gnaver sig igennem samtlige ord på flest muligt af nettets websider. Programmet finder nye sider ved at følge links fra allerede kendte websider eller ved at bruge data, som ejerne af websiderne har indleveret til søgetjenesten. Når først crawleren er sat i gang, arbejder den helt uafhængigt af mennesker. Dag og nat skanner den sig gennem hundrede milliarder ord, og når den er færdig, begynder den forfra. Det er den nødt til – nettet ændrer sig fra minut til minut, så en database, der er flere måneder gammel, er håbløst forældet.

Læs også

Måske er du interesseret i ...

FÅ ILLUSTRERET VIDENSKABS NYHEDSBREV

Du får dit gratis særtillæg, Vores Ekstreme Hjerne, til download, straks du har tilmeldt dig nyhedsbrevet.

Fandt du ikke det, du ledte efter? Søg her: