
Предыдущие номера:
ИЮНЬ 1997
СЕГОДНЯ
GUESTBOOK
ПРЕЖНИЕ ВЫПУСКИ
ВСЕ ДОМЕНЫ .RU
INDEX.HTML

| |

| |
Заметка сто тридцать седьмая
ЗНАТОКИ ПРОТИВ BIG BLUE
comments на полях RFC
Довольно любопытное сообщение прислал сегодня на лист Погода наш старинный знакомец Леонид Л. Делицын, ныне постоянный ведущий рубрики новостей на сервере Перекрестка. Письмо его под красноречивым заголовком "RFC: Search engines vs. Znatoki" заслуживает, пожалуй, того, чтобы воспроизвести его здесь полностью:
Пока писал новости #16 для "Перекрестка" о соревновании
поисковых систем в Лас Вегасе (черновик на http://www.bannermarket.com/articles/16.html)
и попутно проверял ход игры Каспарова с Deep Blue,
возникла идея конкурсов, которые могла бы заинтересовать Интернет-журналы и,
скажем, клуб знатоков:
* человек-компьютер:
Аналогичный матчу Каспарова и Deep Blue между знатоками и
создателями и/или опытными пользователями поисковых систем.
Разумеется, вопросы должны быть специально подобраны, чтобы они были
в принципе разрешимы как теми, так и иными средствами.
В соревновании компьютеров прозвучали следующие вопросы:
Каков валовой национальный продукт Японии?
От знатоков ответа на такой вопрос требовать
ответа на такой вопрос, конечно, неразумно.
* искалка-искалка
очевидная идея о конкурсе русских поисковых систем. Плагиат, но
любопытно.
* команда знатоков-команда знатоков:
Например, знатокам разрешалось бы пользоваться "шпаргалками"
в виде поисковых машин и WWW (вопрос с подсказкой, конечно, осложняется,
если конкурс не проводить в редакции, поскольку участников не видно)
Примеры вопросов:
"Какое устройство повышает быстродействие при передаче речи и факсов
в 8 раз?"
(только не объявлять заранее, что спонсором вопроса будет
фирма Northern Telecom)
* В стиле КВН - знатоки против опытных пользователей искалок.
Вопросы, возможно, должны быть заранее проверены на существование
ответа в пределах Интернет.
Можно рассчитывать, что призыв классика будет услышан адресатами его письма, и турниры, подобные предложенным, будут в близком обозримом будущем проведены в русской Сети. Тем более что для их организации не требуется никаких сложных технических устройств или дорогостоящих приготовлений. Для состязания знатоков достаточно их предварительной договоренности и одновременного подключения всех участников к одному общедоступному серверу IRC. А для соревнования между поисковыми машинами не нужно даже никаких особенных средств интерактивности, или одновременного присутствия всех организаторов на линии в момент проведения конкурса. Достаточно лишь отобрать компетентное жюри, члены которого в удобное для них время провели бы сравнительные замеры результативности поиска по одним и тем же вопросам в различных машинах.
Проблема, однако, заключается здесь в том, что эффективность поисков, производимых интернетовскими пользователями в различных машинах и каталогах, осложнена большим рядом субъективных особенностей, из которых стоит особо выделить следующие:
- скорость нахождения требуемых текстов в поисковых машинах зависит от степени опытности того или иного пользователя в работе с этими конкретными машинами, от правильности формулирования вопроса. В частности, с разной скоростью найдут ответы на интересующие их вопросы в той же АльтаВисте пользователи, посылающие обычный запрос или Advanced Query. На скорости поиска будут отражаться также особенности орфографии поданных вопросов, знание участниками формулировок. Скажем, в приведенном вопросе о валовом национальном продукте Японии скорость нахождения ответов будет зависеть от того, знают ли участники забега, как по-английски называется валовой национальный продукт, и как это наименование сокращается.
- нахождение необходимых ссылок не равнозначно обнаружению ответов на заданный вопрос. Зачастую ссылка указывает на документ, имеющий мало отношения к делу. Во многих случаях ссылки будут указывать на давно устаревшие или уже не существующие в Сети документы (это тем более вероятно, что скорость обновления всех ресурсов Паутины оценивается различными исследователями в 45-70 суток). На это можно, впрочем, возразить, что актуальность адресов в базе поисковой машины является ее важной оценкой и характеристикой; если та или иная система содержит большое количество неактуальных ссылок, то эта ее особенность должна быть однозначно признана недостатком, снижающим общий балл.
- скорость нахождения ответов на различные вопросы в значительной мере зависит от популярности той или иной темы в Интернете. Скажем, на выяснение имени второго президента Соединенных Штатов Америки, или на обнаружение гимна США в Интернете требуется меньше времени, чем на поиск домашней страницы Б.Н. Ельцина или партитуры балета "Малая земля" в постановке Государственного академического большого театра.
- Достоверность найденных ответов на заданные вопросы едва ли может быть легко оценена членами жюри. Если еще имя второго президента США можно проверить с высокой степенью надежности, как значение всякой константы, то уже размер ВНП Центральноафриканской республики меняется от года к году и может варьировать в зависимости от источника. Какую цифру считать актуальной, и какой источник рассматривать в качестве наиболее достоверного - вопрос, не входящий в компетенцию поисковой машины. Между тем, от его трактовки зависит правильность ответа - и, следовательно, общий балл, начисляемый машине по результатам поиска.
- Зачастую поисковые машины с успехом используются для поиска промежуточных сведений. К примеру, в АльтаВисте (как и в большинстве других каталогов) на сегодняшний день не проиндексированы еще материалы "Вечернего Интернета" за май нынешнего года. Тем не менее, АльтаВиста с успехом может быть использована для быстрого обнаружения ответов на вопросы: "Что писал "Вечерний Интернет" 9 мая 1997 года?" или "Каким русским конвертором рекомендует пользоваться автор "Вечернего Интернета" для перевода текстов из КОИ8 в CP1251?" - даже если изначально ищущий не представляет себе, что такое ВИ, и по какому адресу расположен в Паутине наш сервер. АльтаВиста может помочь с ответами на эти проклятые вопросы, после чего читатель за считанные секунды может выяснить все остальное, используя наши локальные навигационные и поисковые средства...
- В ситуации матча Каспарова против шахматного компьютера оценка результатов облегчена всемирно признанным авторитетом чемпиона мира. Если победителем окажется Big Blue, то даже замечания скептиков о более высоком классе игры Карпова не в силах будут умалить значения вывода: компьютерное мышление, наконец, стало эффективнее человеческого при решении шахматных задач и просчете возможных вариантов игры. Если же электронный разум поисковых машин победит эрудицию команды знатоков, то это может значить лишь, что данная команда не слишком хорошо подкована в предложенных ей вопросах - или что память человеческая меньше приспособлена к хранению и прочесыванию сотен гигабайт информации, чем жесткий диск компьютера и RISC процессор (вряд ли сегодня можно обнаружить на свете человека, знакомого с устройством компьютеров, но готового это банальное утверждение всерьез оспаривать).
Несмотря на все эти нарекания - а возможно, что просто с их учетом - соревнования, предложенные ДелицЫным, могли бы стать весьма занимательным зрелищем как для своих участников, так и для сторонних наблюдателей. А результат может оказаться весьма полезен для оценки результативности и пригодности различных поисковых машин для решения конкретных информационных задач. Посему я вслед за Левоном призываю наших читателей подумать об оптимальном способе организации подобных соревнований, отбора участников и жюри. А в заключение предлагаю список ссылок, имеющих отношение к сегодняшней теме.
- Поисковая машина AltaVista
- Поисковая машина Lycos
- Поисковая машина Excite
- Поисковая машина Rambler
- Поиск в Вечернем Интернете
- Рекламная сеть Спутник
- Достойные новости Делицына
- Сервер Banner Market
- Календарь Клуба знатоков
- Матч Каспарова против BigBlue
Часть этих ссылок (и другие относящиеся к делу адреса) читатель может обнаружить в левой колонке нашей сегодняшней заметки.
P.S. При написании сегодняшней и вчерашней заметки для поиска и проверки ссылок использовался Netscape Communicator 4.0 PR3. К моменту окончания работы на машине с общей физической памятью 32 мегабайта (операционная система - Windows NT 4.0 Workstation, Service Pack 2) было открыто ровно 16 окон бродилки, из которых в два окна были загружены локальные ресурсы, а в 14 окон, соответственно, удаленные. За двое суток работы программа ни разу не дала сбой.
Примечательны также общие показатели работы и загруженности моей системы на момент написания этих строк. Согласно данным Windows NT Task Manager, 32 запущенных в системе процесса и 180 threads использовали при этом 7980 handles, около 77% ресурсов процессора и 83,4 мегабайта виртуальной памяти. Свободными оставались 650 мегабайт виртуальной и 4,5 мегабайта физической памяти. В числе других запущенных процессов были DerekWare 2.0 HTML Editor, 2 копии HTMLPad Pro 2.5, Eudora Pro 3.0, CuteFTP 1.8, Dial-Up Monitor, ConvertCyrillic, Windows NT Explorer (не Internet), Sound Indicator, keyboard switcher, ICQ/Net Detect и, разумеется, Task Manager. Сама система при этом работала как online, так и offline, с прямым и быстрым доступом ко всем 700 установленным в ней шрифтам true type. Рискну утверждать, что эти данные являются ценным свидетельством возможностей "форточек новой технологии" и общей устойчивости этой операционной системы. По поводу руссификации НТ 4.0 надо заметить, что встроенная поддержка русской Input Locale вместе с чикаловским драйвером клавиатуры KOI8 и шрифтами семейства ER позволяют читать и писать документы сразу в трех русских кодировках с переключением "на лету" (в том числе, обмениваться русскими сообщениями в ICQ). В завершение разговора о пределах руссификации этой системы нужно указать, что Windows NT Explorer после установки русской локали обладает всеми возможностями чтения и правки русских файловых имен, оставшихся от прежних инсталляций локализованной версии Windows 95. При этом сами Windows 95 американской оригинальной версии такими возможностями не располагают.
Предвижу множество возможных возражений по поводу этих цифр и очередной виток священной войны в гостевой книге. Я вовсе не хотел бы утверждать, что Windows NT 4.0 является оптимальной операционной системой для обслуживания компьютерных сетей, или что способ расходования ресурсов этой системы остроумнее, чем в UNIX при сходной конфигурации. Очевидно, что и полуось распорядилась бы доступными ресурсами не хуже. Скорее, речь здесь идет о возможностях, недоступных пользователям таких операционных систем, как Windows 95 или Макинтош.
|