Спустя годы после возникновения цифровых носителей стало ясно, что сохранение информации в цифровом виде - дело куда более сложное, чем казалось вначале. Дискеты изнашиваются быстрее книг, а от целых сайтов не остается и следа после нажатия одной клавиши. Тем не менее, вот уже пять лет в специальном архиве сохраняются "копии Интернета".
Архив Интернета основан в 1996 году Брюстером Кейлом (Brewster Kahle), который работает в тесном сотрудничестве с Библиотекой Конгресса США. Архив обновляется каждые два месяца (общепринято, что средний срок жизни страницы в Интернете именно два месяца). Сейчас объем архива 40 терабайт. Для сравнения: примерно вдвое больше места нужно для сохранения на цифровых носителей текстовых материалов, хранящихся в Библиотеке Конгресса. 2 терабайта заняли только архивы интернет-материалов, связанных с президентскими выборами 2000 года. Архив Интернета планирует переписывать собираемые материалы на новые носители каждые 5 лет, чтобы предотвратить потерю данных.
До 1996 года Интернет никем не архивировался. Это не беспрецедентный случай в истории: так бывает с ранними версиями любых новых средств информации, будь то книги, кино, телевидение, радио. Как любит напоминать сам Брюстер Кейл, даже самая известная средневековая попытка заархивировать знания человечества Александрийская библиотека больше известна фактом своего последовательного уничтожения (сначала римлянами, потом христианами, и еще позже мусульманами).
В декабре 2000 года Конгресс США выделил Библиотеке Конгресса 100 миллионов долларов для разработки национальной программы сохранения цифровой информации. Помимо оплаты хранения, эти деньги пойдут и на научные исследования стабильности цифровых носителей. За долгие годы человечество научилось хранить бумажные материалы, и знает все об их сохранности и долговечности. С цифровыми данными все иначе. В первые годы существования компьютеров люди предполагали, что цифровые данные смогут храниться без потерь десятилетиями. И хотя исторически существенных потерь цифровых данных пока не зарегистрировано, сотрудники архивов свидетельствуют, что магнитные пленки и гибкие диски, на которых хранится информация, выходят из строя.
Кроме того, цифровые носители постоянно меняются, как меняются и аппаратные средства для их воспроизведения. Сейчас многие библиотеки и архивы являются обладателями больших собраний музыкальных и иных CD, а также DVD, которые тоже стареют год от года.
Не стоит на месте и ПО, что приводит к появлению большого количества разных форматов, не всегда совместимых между собой. Поэтому специалисты в архивном деле стараются хранить данные в таких стандартных форматах, как HTML и ASCII.
Данные проблемы актуальны и для домашних пользователей. Дискеты и компакт-диски показали себя нестабильными носителями данных. Они часто становятся нечитабельными, причем это скорее вопрос лет, а не десятилетий и столетий. Тут есть лишь одна позитивная тенденция цифровые носители год от года дешевеют.
Архивация Интернета дело вообще новое, и помимо изнашиваемости носителей, здесь имеются дополнительные трудности. Некоторые издатели, специализирующиеся на распространении цифрового контента, защищенного законом о копирайте, не отдают свою информацию на хранение библиотекам и архивам (книжные издатели такого позволить себе не могли). В частности, Архив Интернета Брюстера Кейла не имеет в своем распоряжении архивов New York Times, так как доступ к онлайновым материалам этой газеты для бесплатного использования заблокирован.
И как же быть в этом случае историкам? Особенно с учетом того, что архивы могут быть изменены задним числом, что в Интернете встречается повсеместно. После внесения изменений в архивы восстановить реальную картину можно лишь с большим трудом.
Актуальность архивов Интернета повысилась в последнее время и в связи с разорением большого числа доткомов. Обанкротившиеся компании продают свои сайты, уничтожая находившуюся на них информацию - как это случилось на днях с сайтом российского журнала "Интернет".