Нетоскоп/Тема/29.12.2001 http://www.netoscope.ru/theme/2001/12/29/4467.html Сеть, которая умнее людей Алексей Андреев lexa@spb.cityline.ru 29.12.2001 Те, кто называет WWW "кучей мусора", говорят так лишь потому, что чувствуют очень даже "немусорную" силу этой Сети. И боятся ее. Потому что на самом деле WWW - это умная машина для умных людей. И в ближайшие годы, с развитием Semantic Web, она станет еще умнее, обещает ее изобретатель Тимоти Бернерс-Ли. |
||
Агенты научного коммунизма
Одно из массовых заблуждений по поводу Интернета состоит в том, что его создали военные. Это, конечно, не так. Военные могли еще что-то придумывать в древнем Китае. Но в XX веке для создания чего-либо нового в военной сфере требовались люди, работающие в чистых науках. Другое дело, что труд ученых во многих областях науки сначала использовала военная машина. А уже затем она бросала обглоданные кости технологий в руки гражданской индустрии, которая, еще немного обглодав их, отдавала нормальным людям за отдельные деньги.
Но с главной надстройкой Интернета - Word Wide Web - все получилось гораздо интереснее. Она была создана не только учеными, но и для ученых, по их собственным принципам. И проскользнула между пальцами тех, кто привык поедать новые технологии первым. То, что получилось в результате, стало бомбой замедленного действия, подрывающей и военную машину, и гражданскую индустрию.Но сначала немного истории - которая, кстати, тоже начинается с опровержения стереотипа. Хотя Интернет и ассоциируется у многих с США, его главную надстройку World Wide Web придумал компьютерный консультант британского происхождения, работавший в Швейцарии. В марте 1989 года Тимоти Бернерс-Ли, сотрудник Европейской лаборатории физики элементарных частиц (CERN) в Женеве, обратился к руководству CERN с идеей создания распределенной информационной системы для обмена результатами исследований между учеными, находящимися в разных учреждениях и разных странах. В своем проекте "World Wide Web: Proposal for HyperText Project" Бернерс-Ли предложил объединить все информационные ресурсы CERN в систему, которая бы позволила легко переходить от одного документа к другому посредством гипер-ссылок.
Дальше развитие WWW носило характер массового общественного движения, чему очень способствовала идеология "открытого кода". Не требовалось ни специальной индустрии, ни специальных государственных мер, чтобы развивать эту Сеть - люди строили ее сами. И хотя распространение других сетей - ФИДО, Usenet - тоже шло снизу, в них не было той черты WWW, которая стала бомбой.
Речь идет о том, что универсальная система URL-адресов и технология гипертекста в сочетании с поисковыми программами образовали среду, где информация не только передается, но и интеллектуально обрабатывается. Под интеллектуальной обработкой имеется в виду не просто техническое преобразование информации (например, шифрование), а такие процессы, которые аналогичны человеческому мышлению. Например, автоматизированное собирание объектов в множества по определенным признакам, установление отношений между этими множествами (распознавание образов) и т.п. Несколько лет назад математик Дмитрий Манин придумал для описания этих механизмов забавный термин "платонова метрика" - своего рода "расстояние между идеями". В Сети платонова метрика заменяет метрику Евклида. Физическое расстояние между двумя серверами может быть огромно, но если оба сайта посвящены, например, кошкам, то при наборе слова "кошка" в поисковой системе эти сайты окажутся очень близки по идее - как две гиперссылки, стоящие на одной странице.
Таким образом, Интернет с надстройкой WWW - это не только система связи и большая база данных, но и система получения знаний, огромный искусственный интеллект с персональным интерфейсом для каждого желающего.
Для людей науки это был просто клад: в современной теоретической физике, например, просто невозможно создать что-либо "с нуля", не опираясь на работы предшественников. А уж сколько было случаев, когда люди тратили годы на исследования - и затем выясняли, что аналогичные результаты уже давно получены кем-то другим! В результате научное сообщество просто вынуждено было прийти к идее более-менее свободного обмена знаниями. Построение коммунизма имело место в отдельно взятом и страшно далеком от народа сообществе, поэтому его терпели.
Но когда птичка WWW выпорхнула из академического мира, она вынесла на публику этот тщательно скрываемый научный коммунизм. Нечего и говорить, всенародная система получения знаний вряд ли могла быть полезна военным, которые предпочитают скрывать знания. Да и индустрия, с ее любовью к "патентам", "авторским правам" и прочим "эксклюзивам", получила подарочек, смысл которого стал ясен гораздо позднее.
В 2001 году отмечается 10 лет World Wide Web. В течение этих десяти лет старая идеология "средства массовой информации" медленно, но верно подтачивалась новой концепцией "средства персонального доступа к знаниям". Нельзя сказать, чтобы старый мир особенно сдавался. В Сеть были искусственно привнесены многие офлайновые модели той самой индустрии, которая предпочитает распространять не знания, а продукты использования этих знаний. Дошло даже до того, что механизм гиперссылок стал искусственно подавляться (этим славится, например, агентство "Росбизнесконсалтинг", редакторам которого запрещено не только ставить ссылки, но и вообще упоминать источники новостей).
Однако Маклюэн не зря сказал, что "the media is the message". Если ориентация на доступ к знаниям встроена в сам механизм, а механизм получил всемирное распространение - то надурить такую систему уже непросто. Любой желающий с помощью элементарного поиска по Yahoo! может за пару минут найти оригиналы тех новостей, которые РБК публикует как свои. Любой желающий с помощью тех же поисковиков может составить собственную новостную ленту. Более того, в конце концов любой желающий, пользуясь все той же системой, может сам писать новости
Именно в связи с этим
В нынешнем виде WWW - вместе с поисковыми системами и другими сервисами - уже представляет собой "мыслящую Сеть". Однако нетрудно понять, что сами веб-страницы здесь пассивны, а "мыслящей частью" являются именно поисковые машины. Они не только индексируют страницы Сети, но и всячески анализируют их, организуя собственные базы знаний. Тот, кто контролирует поисковую систему - контролирует знания.
До сих пор поисковики были бесплатными, поскольку бизнес по старинке концентрировал свое внимание на обладании информацией. Но как уже сказано, эта модель умирает. И уже по опыту этого года видно, что в 2002 году сетевые сервисы обработки информации, которые ранее были бесплатными,
Кроме того, сама по себе централизация - не очень полезная вещь. Неэффективно собирать знания со всей Сети в одном месте, и в том же одном месте обслуживать миллионы пользователей. Сейчас число хороших поисковиков можно пересчитать по пальцам. Их сбои (а то и планомерное блокирование) запросто могут привести к тому, что вся WWW превратится в "тело без мозга".
У Бернерса-Ли уже есть решение этой проблемы: нужно сделать более умной саму WWW, чтобы она хранила не только документы, но и их "смысл". Для этого семантика, то есть определенная информация о смысле документов, должна быть добавлена в описание самих веб-страниц на языке, который может так же легко обрабатываться компьютерами, как обрабатываться гипертекстовая разметка HTML.
Для начала речь идет самых простых семантических элементах, или мета-данных - которые, кстати, уже используются отдельными системами. Например, во внутренней верстке новостей Lenta.ru (а до этого - в Gazeta.ru) уже в 1999-м году использовались такие "метки", как .Author или .Title, которые помечают, соответственно, автора новости и заголовок новости. Эти данные используются роботом, который верстает сайт - например, каждый новый заголовок автоматически выносится на главную станицу сайта как гиперссылка. Эти же данные могут использовать другие боты, выполняющие экспорт заголовков на другие сайты, поиск по авторам и т.д.
В случае
Третьим элементом Семантической Сети являются "онтологии" - универсальные базы знаний, которые собственно и определяют используемые термины в рамках классов и множеств. Например, в онтологии может быть описано, что "столица" - это особый тип "города". Для определения терминов, используемых в разметке XML-документа, достаточно сослаться на онтологию. Этой же ссылкой воспользуется и интеллектуальный бот-поисковик, который, например, ищет не просто "все туры", а "туры по столицам". С помощью онтологии бот сам поймет, что на сайте туров по Франции ему нужно выбрать именно тур по Парижу, так как это - столица.
Идентификаторы-гиперссылки могут ссылаться не только на веб-страницы, но и на определенные физические объекты - например, на домашнюю электронную аппаратуру. И самое интересное начнется, когда Семантическая Сеть объединится с
Все это кажется довольно сумасшедшим проектом. Однако развитие Семантической Сети идет полным ходом, причем разработки ведут многие крупные компании, включая Hewlett-Packard и Nokia. Министерство обороны США, а точнее, его научное агентство DARPA, выделило уже десятки миллионов долларов на развитие своего языка разметки для Семантической Сети (DARPA Agent Markup Language).
Битва за стандарты
Показательно, что стандарт XML был окончательно оформлен еще в 1998 году. Да и вообще в 2001 году не произошло ничего особенно нового в плане языков для веб-программирования или веб-браузеров (если не считать
Простым пользователям в 2001 году эта проблема стало особенно близка с распространением Macromedia Flash, в результате чего появилось множество сайтов, которые просто нельзя увидеть обычным браузером без дополнительного плагина.
По словам самого Бернерса-Ли, уже в 1992 году он почувствовал, что от популяризации WWW пора переходить к контролю за сохранением ее принципов универсальности. Возглавляемый им World
Как отмечает Джефри Зельдман из
Нельзя сказать, что W3C смог полностью решить эти проблемы. С одной стороны, в нем
Очевидно, что в будущем году эти проблемы только усилятся, и в работе над Семантической Сетью тоже будет идти война за стандарты. Сам Бернерс-Ли считает, что Семантическая Сеть, так же как WWW, должна быть максимально децентрализована - в этом случае будет меньше шансов, что-то один станет контролировать базы сетевых знаний (онтологии). Но как сказано выше, хотя развитие Семантической Сети вовсю идет как общественное движение, существенную роль в этом процессе играют крупные компании и даже Минобороны США.
Боты, которые ботают
В борьбе за знания ученые нередко рискуют собственной безопасностью. Устройство WWW вполне отражает этот факт. Создавая сеть для связывания научных работ, они действительно не думали о том, что ее можно использовать и для слежки. В общем-то ничего удивительного: если WWW - это система получения знаний, то она может быть направлена и на получение знаний о том, кто ею пользуется. Для выявления вкусов, привычек и паттернов поведения отдельных пользователей, для моделирования их поведения - и манипулирования ими с помощью этих данных.
Поскольку технология защиты приватности, о которой говорит Бернерс-Ли, не была прописана в протоколе HTTP, обеспечить ее могут только программы и сервисы более высокого уровня. В этом смысле разочарованием года стало закрытие сразу двух известных сервисов анонимизации -
Позитивным же событием года стало то, что в новом браузере Internet Explorer 6 оказалась реализована поддержка формата защиты личных данных P3P. Теперь сайты, которые собирают информацию о пользователях, должны описать свою политику и выложить ее в корневой каталог сайта в машиночитаемом виде (на языке XML). Браузер проверяет этот файл, и в зависимости от настроек пользователя начинает "ругаться" в том случае, если сайт хочет узнать о пользователе больше, чем нужно.
Такая забота о пользователе - едва ли заслуга компании Microsoft, которая в этом же году уже
Конечно, P3P - не панацея от всех бед. Некоторые считают, что система идентификации Passport, которую продвигает сейчас Microsoft,
Кстати, собирая ссылки для этой статьи, я не видел ни одного баннера. Не то чтобы я каждый раз специально закрывал глаза, проклиная рекламщиков. Нет, я даже не задумывался об этих несчастных! Просто та часть Сети, в которой я работаю, уже умнее этих людей. И она сама не пускает ко мне то, чего я не просил. И будет еще умнее, если понадобится.
ССЫЛКИ ПО ТЕМЕ |
МАТЕРИАЛЫ ПО ТЕМЕ |
Copyright © 2000-2002 Нетоскоп www.netoscope.ru |