Нетоскоп/Тема/06.06.2001 http://www.netoscope.ru/theme/2001/06/06/2507.html Новый русский поисковик Punto придумали футурологи Вячеслав Ансимов ansi@netoscope.ru 6.06.2001 В мае в Рунете появилась новая поисковая машина по имени Punto.ru. Три уже существующие российские поисковые системы и недавно начавший искать по-русски Google, кажется, полностью удовлетворяют запросы пользователей. Однако, группа Futura, инициировавшая создание поисковика Punto, уверена, что ей удастся занять достойное место среди маститых конкурентов. |
||
В мае в Рунете без особого шума появилась новая поисковая система
Группа Futura организована в Москве в 1995 году и состоит из политиков, ученых, бизнесменов. В работе Futura принимают участие Информационно-аналитическое управление Совета Федерации и
Идея новой поисковой машины обсуждалась всеми желающими в специальных чатах группы методом мозгового штурма. Разработчики собрали множество замечаний и пожеланий по улучшению поиска в Интернете, и решили сделать такую поисковую машину, которая бы отвечала лучшим представлениям о ней. Авторы системы решили, что на тесном рынке поисковых систем в России они смогут предложить конкурентоспособный продукт.
Создатели системы отмечают, что основные отличия Punto от предшественников - это "стопроцентный результат поиска", чистота и удобство. Надо отметить, что ничего оригинального в этих параметрах нет.
"Стопроцентный результат" предполагает стремление к тому, чтобы нулевой результат поиска не появлялся. Основными приемами здесь являются исправление орфографических ошибок и опечаток в запросе и, конечно же, активное пополнение базы.
Чистота обеспечивает отсутствие в выводимых результатах абсолютно идентичных документов, расположенных по разным адресам (как это бывает очень часто). Здесь применена идентификация по некоему набору уникальных признаков содержимого страницы.
Удобство достигается за счет еще менее оригинальных средств: отсутствия рекламы, новостей и всего прочего, кроме строки запроса.
В системе также имеется функция фильтрации словоформ для обеспечения "точного попадания". В описании системы указано: "Если вы ищете слово "рука", вам выдают результаты, где будут: "руке", "рукой", "руками" и т.д. Punto тоже так умеет, но мы включаем эту опцию лишь тогда, когда это необходимо. Если вы ищете писательницу по фамилии "Толстая" и введете это слово в запрос, то в поисковой машине "Punto" вы получите результаты с точным совпадением, а не окажетесь на страницах, где упоминаются не относящиеся к делу "Толстой" или "Толстому".
Punto, как и некоторые другие поисковики ("Яндекс", Google), использует технологию определения индекса цитирования в качестве средства увеличения релевантности поиска.
На вопросы "Нетоскопа" отвечает директор проекта Futura, редактор издательства "
- Кто разрабатывает поисковую систему Punto и кто является владельцем проекта?
- Концепцию, алгоритмы, семантические разработки производит футурологическая группа Futura. Что касается программирования, построения системы, - этим на начальном этапе занималась питерская веб-студия ArtLogic. В настоящий момент над программной частью поисковика работают московские программисты. Собственником проекта Punto.ru является группа Futura.
- За счет чего финансируется Punto?
- Финансирование производится из собственных средств участников проекта. Проект полностью построен на аутсорсинге, и мы предполагаем придерживаться этой схемы. Замечено: как только сетевые проекты попадают в руки к бюрократам и бюрофилам, они снимают офис в центре Москвы или Лос-Анджелеса, нанимают сто человек работников, тешат свое эго и через полгода все заканчивается. "Контора съела все". Как в "Золотом теленке". Причем удивительно, что этим болеют как в России, так и в Штатах. Плохой симптом, когда свитера с драными локтями меняют на строгие костюмы с галстуками. Впрочем, и наоборот. :)
- Когда система была запущена?
- Работа над проектом началась 1 декабря 2000 года, и 1 мая 2001 года Punto.ru был открыт. Потребовалось пять месяцев энтузиазма и героических усилий. Еще раз повторю, что большую часть технической работы приняли на свои плечи питерские ребята из ArtLogic. Что касается интеллектуальной части, исследований, то работала группа Futura, на сайте futura.ru было произведено несколько мозговых штурмов в виде чатов. Результаты по сию пору используются в работе.
- Является ли движок вашей собственной разработкой?
- Да, в настоящий момент поисковый комплекс уже является собственной разработкой. На начальном этапе мы опирались на все существующие в мире программы поиска, написанные на Unix. Очень помогли нам разработки ребят из mnogoSearch, в прошлом "УдмСерч", но так как мы ставили себе задачи более масштабные, пришлось во многом пойти своим путем.
- Есть ли в Punto язык запросов?
- Язык запросов в Punto есть, но подключен сейчас только оператор "and" ("и"). Если в запросе несколько слов, то ищутся документы, в которых все эти слова присутствуют. Мы постарались убрать из интерфейса все, что может запутать простых пользователей, число которых значительно растет, уменьшая пропорцию "профессионалов".
- Punto индексирует только российские ресурсы?
- Индексируются все ресурсы на всех языках в зоне .ru. В зонах .com, .net, .org, .de и так далее - ресурсы на русском языке.
- По поводу стопроцентного результата. В случае, если пользователь ошибается с раскладкой клавиатуры, в запросе все исправляется автоматически и поиск производится по исправленному слову?
- Да, причем исправление происходит в обе стороны. Например, "rjvgm.nth Сщьзфй" будет исправлено на "компьютер Compaq".
- В случае орфографической ошибки предлагается исправленный вариант слова, поиск по которому в случае согласия надо запустить самому? Замена предлагается только в случае, если введенное в запросе слово в базе не обнаружено?
- Да, это так. Допустим, человек хочет найти художественный текст, где герои говорят с ошибками. Мы не можем исправлять их, ведь человек ищет именно такое написание. Забавно - человек, пишущий "электрофикация" вместо "электрификация" получает ресурсы, написанные такими же, как и он, следовательно, "субъективная релевантность" возрастает. :)
- Каков механизм проверки орфографии? Не страдает ли он интерпретацией слов типа "мультиканальный" от Word?
- Мы слов не разрываем. В русском языке можно много чего разрывать таким образом. Ошибка слипания весьма редка, так как по спейсбару трудно промазать. В том, что касается спелчекеров, во многом используется опыт компьютерного гуру из Сан-Диего -
- Как вы оцениваете скорость поиска? Как влияют на нее дополнительные навороты - проверка орфографии, распознавание документов для чистоты результатов. Судя по всему, их нельзя отключить. Хотя чистота - довольно приятное свойство.
- Навороты на скорость поиска не влияют совсем. Большинство наворотов начинает работать в случае, если пользователь не получил сатисфакции.
- Вы проводите конкурс на лучшее предложение по улучшению работы поисковой машины. Не могли бы привести примеры удачных предложений.
- Да, действительно, определился первый победитель за май месяц. Человек получил приз, хотя уже никто не верит в то, что призы честно могут выдавать. Мы не обещали поездку на двоих в Париж, но то, что обещали, было вручено. Удачные предложения являются собственностью давших их, а первый участник пожелал не публиковать свою фамилию, равно как и советы.
- Каковы перспектив роста проекта?
- Одно могу сказать твердо: мы не хотим стать ни свалкой, ни барахолкой, мы ведем большую изыскательскую работу по определению ценности документа, по тому, что считать идеальной страницей, и в соответствии с этим мы предлагаем пользователям результаты. Не хотелось бы, чтобы клиент, выбравший нас в качестве поисковой машины, рылся в контейнере с отходами интеллектуальной деятельности. Идеалом для нас скорее является сеть магазинов Marks & Spenser, нежели вещевой рынок в Лужниках, где, конечно, много чего найдется, но какого качества? Количественные показатели имеют значение, когда найдена 1 страничка или 20, когда же найдено 3 миллиона или 10 миллионов страниц, человек физически не сможет их просмотреть. Тогда важно, что попало в первую двадцатку. В скором времени количественные показатели для некоторых пользователей перестанут быть хорошим критерием, критерием будет качество результатов. У нас в багаже есть несколько очень интересных разработок, и сейчас над ними полным ходом идет работа. Мы вышли на это поле, и если мы будем делать что-то интересное и стоящее, результаты появятся сами по себе. Однажды, когда Ньютона кто-то похвалил, он сказал: "Я стою на плечах гигантов" Он имел в виду своих предшественников. Во многом мы опираемся на опыт, как позитивный так и негативный, наших российских поисковых машин: "
Обсудить в форуме (Сообщений : 9)
ССЫЛКИ ПО ТЕМЕ |
МАТЕРИАЛЫ ПО ТЕМЕ |
Copyright © 2000-2002 Нетоскоп www.netoscope.ru |