Все прошлое интернета

Проект Internet Archive является одним из крупнейших сервисов, предназначенных для сохранения ценного цифрового контента. Действительно: мы же храним в музеях материальные артефакты прошлых эпох, так чем же хуже электронное наследие нашей?

Сберегать все подряд вряд ли оправданно. Политика комплектования Internet Archive предусматривает сохранение только легального, свободно распространяемого и оригинального контента. Давайте познакомимся с наиболее интересными и полезными для обычного пользователя ресурсами Internet Archive.

Интернет — сайты сейчас, если вдуматься,полноценные артефакты нашей с вами эпохи. Они могут исчезнуть или полностью измениться. Одним из ключевых проектов Internet Archive является сервис Wayback Machine. Создатели видят его миссию в создании архива копий веб — страниц за определенные моменты их существования. Архив собирается с 1996 года и позволяет посмотреть, как выглядел тот или иной сайт лет этак десять тому назад.

Wayback Machine ориентируется на достаточно крупные ресурсы. Первый признак, по которому сайт отбирается для сохранения,это его наличие в каталоге dmoz. Ранее проект Wayback Machine также работал с Alexa. Есть у этого ресурса и собственные роботы, самостоятельно отыскивающие сайты с хорошим индексом цитирования. На сегодняшний день существует два варианта доступа к архиву: через сайт Internet Archive и с помощью отдельного проекта Wayback Machine. Они отличаются возможностями и интерфейсами.

«Классический» интерфейс Internet Archive предлагает простой и расширенный режимы поиска. Запросом здесь является не набор ключевых слов, a URL интересующей вас веб — страницы. Если система найдет копии именно этой страницы, она по умолчанию покажет наиболее свежую из них. В принципе, кэшем можно воспользоваться и на любом крупном универсальном поисковике, однако у Wayback Machine есть серьезный козырь: режим расширенного поиска. С помощью предлагаемых фильтров можно указать точный временной диапазон, в котором система будет искать сохраненные страницы. Можно провести поиск не только по веб — страницам, но и по файлам других типов. Для уточнения запроса доступны и иные инструменты. Например, можно настроить показ в результатах поиска не просто одной копии, но всех «снимков» нужной страницы за определенный день. Есть и доступ к дополнительным сервисам: конвертации найденной веб — страницы в PDF — файл, а также сравнения различных ее версий.

Для отправки запроса необязательно даже заходить на сайт Internet Archive — можно напрямую перейти к сохраненной странице, используя соответствующим образом скомпонованный URL. Варианты таких ссылок — запросов приведены ниже.

web.archive.org/http:site.com/stranica. html — открывает самую свежую копию указанной веб — страницы.

web.archive.org/2000/http:site.com/ stranica.html — откроет копию страницы, дата сохранения которой максимально близка к 1 июля 2000 года.

web.archive.org/200012/http:site.com/ stranica.html — откроет копию заданной страницы, дата сохранения которой максимально близка к 15 декабря 2000 года.

web.archive.org/20001231095510/http: site.com/stranica.html — откроет копию заданной страницы, сделанную близко к указанной с точностью до секунды дате и времени.

web.archive.org/200012/http:site.com/ stranica.html — откроет все копии указанной страницы,сделанные с декабря 2000 года.

web.archive.org/200012/ http:site.com — откроет копии всех страниц сайта, сделанные с декабря 2000 года.

Во всех примерах участок <http:site.com/strani — ca.htmb, как вы наверняка уже поняли, следует заменить на нужный URL.

Как нетрудно заметить, возможности запросов достаточно гибки. В простейшем случае достаточно при обращении к web.archive, org просто указать адрес нужной страницы после слеша. Для лучшего понимания механизма работы системы приведем несколько примеров синтаксиса.

Результат работы системы — архивная копия веб — страницы. На многих сайтах работают мультимедийные элементы и даже ссылки, которые также ведут на сохраненные «снимки» связанных веб — страниц.

По адресу waybackmachine.org нас встречает новый интерфейс проекта. С одной стороны, его возможности сократились, поскольку остался только режим простого поиска. С другой — большинство опций классического поиска перешли в новый интерфейс в виде удобных визуальных фильтров. Страница результатов сделана в виде календаря. Сверху имеется лента, на которой расположены диаграммы, наглядно показывающие количество копий сайта, выполненных в различные годы. Щелкнув по диаграмме нужного года, мы откроем более подробный календарь с месяцами и днями. На нем отмечены даты, когда Wayback Machine выполняла архивирование. Клики по таким отметкам открывают сохраненные копии.

Для владельцев вебсайтов Internet Archive предлагает проект Archive — it. С его помощью можно включить свой ресурс в систему Internet Archive. После бесплатной регистрации в системе вся дальнейшая работа ведется через веб — интерфейс и не требует какого-либо специфического софта или аппаратного обеспечения на стороне клиента. Заметим, что к сохраняемым ресурсам предъявляются стандартные требования проекта Internet Archive: оригинальный характер и ценный контент, который обладает определенным индексом цитирования.

Internet Archive предлагает немало тематических контент — проектов. В их числе, например, библиотека Open Library, содержащая почти три миллиона текстов, а также раздел Education, в котором можно найти более тысячи видеолекций по различным отраслям знания и даже архив софта, комплектуемый на основе анализа каталога Tucows.

Среди тематических проектов Internet Archive довольно любопытна коллекция 301works. Найти ее можно в софт — разделе. Цель этого проекта — архивирование мэппингов онлайновых сервисов сокращения URL. Такие ресурсы часто используют для создания удобных коротких ссылок на различные сетевые материалы. Если же со службой что-либо происходит, например, она прекращает свое существование или просто выпадает из онлайна в силу каких-либо технических неприятностей, все сделанные с ее помощью короткие ссылки перестают работать, поскольку переводить их в реальные адреса уже некому. Соответственно, материалы становятся недоступными. 301works предлагает владельцам сервисов сокращения URL подключиться к их инициативе и периодически архивировать свои материалы. Охват сервисов в этом архиве пока невелик, однако архивы уже собраны довольно внушительные. Например, мэппинги для сервиса bit.ly можно скачать в виде CSV — файлов размером до 1,5 Гбайт. Будем надеяться, что эта полезная идея будет развиваться.

Отличным примером тематического ресурса Internet Archive, ориентированного на мультимедийный контент, является проект NASA Images, организованный совместно с национальным аэрокосмическим агентством США. Его цель — предоставление в онлайне многочисленных снимков, полученных в ходе изучения космоса либо посвященных этим исследованиям. Проект снабжен удобным каталогом и обеспечен различными средствами поиска.

Просматривать каталог можно как по крупным тематическим разделам, так и с помощью интерактивной «линии времени»хронологической линейки, отображающей историю освоения человеком космоса. При наведении курсора на определенную дату всплывают таблички космических программ, проводимых в то время NASA. Кликом по такой табличке можно открыть соответствующий раздел фотоархива.

Предлагается простой и расширенный поиск по базе. В расширенном режиме можно выбирать конкретные коллекции, в которых будет вестись поиск, а также ограничивать сферу поиска конкретными полями описания фотоснимков. Поддерживаются логические операторы. Для уточнения запроса можно использовать боковую панель фильтров. Любопытно, что названия ее блоков даны простыми вопросами. Например, панель Who? позволяет отфильтровать упоминания конкретных людей, a When?отобрать снимки за определенный промежуток времени.

Каждый снимок сопровождается описанием. Приятно, что фотографии предлагаются в хорошем разрешении, да и со скачиванием файлов проблем никаких. Более того, рядом с каждым снимком находятся кнопки сохранения в персональной галерее «Избранного» и перехода к «Рабочему пространству» пользователя. По сути, это редактор слайд — шоу, создаваемых на основе фото NASA Images. Собрав такое слайд — шоу, можно получить код для виджета для своего сайта или блога. Если вы интересуетесь космосом, изучать этот проект можно часами. Невольно ловишь себя на мысли о том, как было бы здорово увидеть подобную систему каталогизации на сайте Роскосмоса. И, между прочим, хронологическая линеечка проектов там бы получилась подлиннее американской.