Сканирование, индексация, поиск

Web-поисковая система является программным кодом, который предназначен для поиска информации в World Wide Web. Результаты поиска, как правило, представлены на web-страницах, часто называемые выдачей результатов поисковой машины. Эта информация (выдача) может содержаться в web-страницах, изображениях и в других типах файлов. Некоторые поисковые системы находят нужную информацию, доступную в базах данных или открытых каталогах. В отличие от веб-каталогов, которые поддерживаются только вручную web-редакторами, поисковые системы также находят информацию в режиме реального времени, путем выполнения алгоритма веб-сканерами.
Поисковая система работает в следующем порядке:
- веб-сканирование;
- индексация;
- поиск.
Сетевые поисковые роботы извлекают из HTML информацию о многих веб-страницах. Эти страницы загружаются с Web crawler (также известный как паук) - автоматизированного Веб-браузера, который считывает все ссылки на сайте. Исключения могут быть в случае наличия файла robots.txt . Содержимое каждой страницы считывается, а затем оно анализируется, чтобы определить, как оно должно быть проиндексировано (например, слова могут быть извлечены из названия, содержание страницы, заголовки, или специальные поля, называемые мета-теги).
Данные о web-страницах хранятся в индексе базы данных для использования в последующих запросах. Запросом может быть одно слово или два, например, «такси бутово». Индекс помогает найти информацию как можно быстрее. В конкретном примере поисковик приведет вас на web-ресурс http://www.dobroe-taxi.ru/, где можно заказать комфортабельное и дешевое такси.
Некоторые поисковики, такие как Google , хранят все или только часть исходного кода страницы (называемые кэш), а также информацию о web-страницах, в то время как другие, например, AltaVista, будут хранить каждое слово на каждой странице, которые они находят.