/ Тема / 11.07.2001
Нетоскоп
Тема

Новости
ИЮНЬ ИЮЛЬ АВГУСТ
ПН ВТ СР ЧТ ПТ СБ ВС
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31
2000 год 2001 2002 год

Форум
Клиенты подали в суд на PayPal за закрытие счетов (17)
Корейцы завалили сервер Олимпийского комитета США (6)
На "Газете.ру" решают судьбу российской олимпийской сборной (10)
"Коммерсант" опубликовал Топ-100 IT-менеджеров (11)
Новый сайт "За стеклом" сделал Павел Черкашин (13)
К 2020 году роботы получат гражданские права (10)
Физматшкола 239 компьютеризирована на пиратские деньги (22)
Японцы пытались сорвать сахалинский референдум (219)
Сергей Покровский: "Первые русские хакеры были работниками НИИ" (101)


Разделы

     Архив Интернета: 40 терабайт за 5 лет
Наталья Хайтина
nataly@netoscope.ru


11.07.2001

версия для печати

Спустя годы после возникновения цифровых носителей стало ясно, что сохранение информации в цифровом виде - дело куда более сложное, чем казалось вначале. Дискеты изнашиваются быстрее книг, а от целых сайтов не остается и следа после нажатия одной клавиши. Тем не менее, вот уже пять лет в специальном архиве сохраняются "копии Интернета".

Архив Интернета основан в 1996 году Брюстером Кейлом (Brewster Kahle), который работает в тесном сотрудничестве с Библиотекой Конгресса США. Архив обновляется каждые два месяца (общепринято, что средний срок жизни страницы в Интернете – именно два месяца). Сейчас объем архива – 40 терабайт. Для сравнения: примерно вдвое больше места нужно для сохранения на цифровых носителей текстовых материалов, хранящихся в Библиотеке Конгресса. 2 терабайта заняли только архивы интернет-материалов, связанных с президентскими выборами 2000 года. Архив Интернета планирует переписывать собираемые материалы на новые носители каждые 5 лет, чтобы предотвратить потерю данных.

До 1996 года Интернет никем не архивировался. Это не беспрецедентный случай в истории: так бывает с ранними версиями любых новых средств информации, будь то книги, кино, телевидение, радио. Как любит напоминать сам Брюстер Кейл, даже самая известная средневековая попытка заархивировать знания человечества – Александрийская библиотека – больше известна фактом своего последовательного уничтожения (сначала римлянами, потом христианами, и еще позже – мусульманами).

В декабре 2000 года Конгресс США выделил Библиотеке Конгресса 100 миллионов долларов для разработки национальной программы сохранения цифровой информации. Помимо оплаты хранения, эти деньги пойдут и на научные исследования стабильности цифровых носителей. За долгие годы человечество научилось хранить бумажные материалы, и знает все об их сохранности и долговечности. С цифровыми данными все иначе. В первые годы существования компьютеров люди предполагали, что цифровые данные смогут храниться без потерь десятилетиями. И хотя исторически существенных потерь цифровых данных пока не зарегистрировано, сотрудники архивов свидетельствуют, что магнитные пленки и гибкие диски, на которых хранится информация, выходят из строя.

Кроме того, цифровые носители постоянно меняются, как меняются и аппаратные средства для их воспроизведения. Сейчас многие библиотеки и архивы являются обладателями больших собраний музыкальных и иных CD, а также DVD, которые тоже стареют год от года.

Не стоит на месте и ПО, что приводит к появлению большого количества разных форматов, не всегда совместимых между собой. Поэтому специалисты в архивном деле стараются хранить данные в таких стандартных форматах, как HTML и ASCII.

Данные проблемы актуальны и для домашних пользователей. Дискеты и компакт-диски показали себя нестабильными носителями данных. Они часто становятся нечитабельными, причем это скорее вопрос лет, а не десятилетий и столетий. Тут есть лишь одна позитивная тенденция – цифровые носители год от года дешевеют.

Архивация Интернета – дело вообще новое, и помимо изнашиваемости носителей, здесь имеются дополнительные трудности. Некоторые издатели, специализирующиеся на распространении цифрового контента, защищенного законом о копирайте, не отдают свою информацию на хранение библиотекам и архивам (книжные издатели такого позволить себе не могли). В частности, Архив Интернета Брюстера Кейла не имеет в своем распоряжении архивов New York Times, так как доступ к онлайновым материалам этой газеты для бесплатного использования заблокирован.

И как же быть в этом случае историкам? Особенно с учетом того, что архивы могут быть изменены задним числом, что в Интернете встречается повсеместно. После внесения изменений в архивы восстановить реальную картину можно лишь с большим трудом.

Актуальность архивов Интернета повысилась в последнее время и в связи с разорением большого числа доткомов. Обанкротившиеся компании продают свои сайты, уничтожая находившуюся на них информацию - как это случилось на днях с сайтом российского журнала "Интернет".

Обсудить в форуме (Сообщений : 0)

ССЫЛКИ ПО ТЕМЕ
Internet Archieve
Библиотека Конгресса США
Recording History - ABCNews, 11.07.01
Internet Archive - Scientific American, 11.04.96

МАТЕРИАЛЫ ПО ТЕМЕ
Журнал "Internet" стерт с лица Сети - 06.07.01
IBM и Sony оцифруют видеоархив CNN - 23.04.01
Google не отдает архивы Usenet людям - 22.02.01




ПРЕСС-РЕЛИЗЫ
Yellow NewsPillow
Возрождение легендарной NewsPillow

АИСТ
Стартует дилерская программа ASP-сервиса SiteManager для веб-студий

Caravan
Караван отменяет все регистрационные платежи на виртуальном хостинге и на размещение физических серверов (Colocation)

Экспресс-Интернет
Система управления сайтом для Веб-студий, а не для Владельцев сайтов. Экспресс-Интернет.

"Логика Бизнеса"
Мария Каменнова вошла в TOP-100 отечественной ИТ-индустрии

Copyright © 2000-2002 Нетоскоп
Информация о сайте

Hosted by uCoz