"> "> "> "> ">
 KOI | MAC | WIN | DOS | LAT


Ежедневный обзор Интернета под редакцией А.Носика

ВЕЧЕРНИЙ ИНТЕРНЕТ

Номер 47 http://www.cityline.ru/vi/ 8 февраля 1997 г.



Вечерний Интернет

Предыдущие номера:

Заметка сорок седьмая
ПИСК ВЕБМАСТЕРА

Цитата сезона - из анонса сегодняшних новостей на NEWS.COM. "За короткий исторический период Apple Computers Inc. успела объявить о лицензировании нескольких весьма разных операционных систем - NeXT, WindowsNT, Rhapsody (от себя добавлю - еще и BeOS - А.Н.)... Вероятно, в их представлении тот производитель компьютеров, который умирает, набрав больше всего операционных систем - выигрывает". (По-английски это звучит смешнее, конечно: Maybe they're thinking that the computer maker who dies with the most operating systems wins.) Сказано остроумно, а главное - тонко подмечен несерьезный, игрушечный характер всех разговоров Apple о светлом будущем. Люди сами не знают, что завтра станут производить, а пытаются увлечь за собой весь мир. Но оставим эту скользкую тему.

Тут давеча Паравозов пугал честной народ /trubaddurl/" TARGET="MAIN">ТрубаддУРЛом. Что вот, мол, нагоните траффика себе на сайт, и не будете знать потом, куда от посетителей деваться. Пишет дух сервера:

Известно, что как-то какие-то бойцы сделали не менее модную тулзу для быстрого лазания по вебу, которая заранее всасывала к клиенту все страницы, на которые были даны ссылки с той, что читал в данный момент пользователь (ну он пока читает, линия ведь свободна - вот и можно повсасывать пока). Так вот когда такую штуку сделали, вебмастера запищали от ужаса - их сервера оказались практически на коленях под напором тулзы, которая непрерывно закачивала страницы, невзирая на то, нужны они будут, или нет. И это ведь никто еще не пытался валить специально.

Как сказал Лев Толстой про Леонида Андреева, "он пугает, а нам не страшно". Что касается собственно сосущих тулзов - их сделан не один десяток, причем темпы развития этой индустрии таковы, что недавно для них на Коровах два специальных раздела добавили: SearchBots (поисковые роботы) и Browser Add-Ons (насадки к бродилке). Такие программы, как BackWeb, Browser Buddy, Flash Site, FreeLoader, GrabNet, InWebstigator, LinkBot, LinkSaver Pro, NearSite, Net Attache (Light & Pro), Oil Change, Powermarks, SiteHog, Surfbot, Teleport Pro и дюжина других, занимаются ровно тем, что у Паравозова описано как единичный курьез: ходят незаметно для своего пользователя по разным сайтам и всасывают оттуда всю новую, или просто всю доступную к отгрузке информацию - с целями не то экономии времени (что сомнительно), не то простого плагиата (что сплошь и рядом). Да и между прочим, в самом нетскейповском меню Bookmarks, безо всяких внешних насадок, испокон веков содержится команда What's New?, которая имеет в точности такое же назначение, что и перечисленные роботы-сосалки: ходит по всем адресам, лежащим в закладках пользователя, и проверяет, нет ли на сайтах чего новенького.

Скажу больше. Все эти тулзы, существующие в массе своей на платформе Windows, обслуживают в основном пользователей, связывающихся с Сетью из дома по модему. Куда более эффективны (и основательны в своем отсосе информации) другие, мощные роботы, которые обслуживают поисковые машины - тот же Скутер из АльтаВисты, ХотБот из Инктоми, или общественный контролер из NetMind (на сервере поисковой машины Webcrawler хранится довольно подробный их список). По страницам, адреса которых у них один раз уже учтены, эти роботы ходят часто и основательно, собирая все тексты, доступные там отгрузке. По этому поводу уместно вспомнить анекдот, однажды мной опубликованный в заметке, которая так и называлась: "Мистер Scooter, библиофил и идиот" (КОИ, CP1251, CP866) - о том, как некто Скутер читал все русские литературные архивы на сайте Леонида Делицына...

Защититься от этого наплыва можно с помощью специального файла под названием /ROBOTS.TXT или отдельной МЕТА-инструкции. Кому интересно - приглашается изучить. А мне с моей сугубо вебмастерской точки зрения интереснее другой вопрос: насколько в самом деле чрезмерный траффик опасен для нормального функционирования WWW сайта. Потому что рано или поздно перед любым создателем популярных интернетовских ресурсов подобный вопрос встает ребром: где та черта, после которой высокий пользовательский спрос из радости превращается в тягость?

Ответ на этот вопрос определяется тремя основными параметрами. Первый - скорость того кабеля, на котором сидит данный website. Понятно, что при подключении на 64К серверу труднее обслужить 100.000 обращений в секунду, чем при подключении на 44.3Мбит. Впрочем, этот фактор начинает реально влиять на скорость обработки запроса вебсервером лишь после 1000 обращений в час - скажем, при среднем ситилайновском траффике в 200 обращений ежечасно "ширина" линии имеет чисто академическое значение.

Второй параметр - это быстродействие той машины, на которой бежит сервер, и той программы, которая обслуживает запросы по протоколу HTTP. Скажем, если бы АльтаВисту поставили на самый быстрый Пентиум в мире и запустили бы на этом Пентиуме самый крутой мелкомягкий Internet Information Server версии 3.0 под WindowsNT Server 4.0, человечеству пришлось бы поискать себе другую поисковую машину. К счастью, подобное вряд ли когда-нибудь произойдет. Даже если на уровне средних и мелких предприятий консорциум Intel-Microsoft имеет очень неплохие шансы на победу, на уровне крупных серверов - таких, как ведущие поисковые машины или сайты с миллионной аудиторией - мелкомягкой технологии ловить пока нечего. А с выходом - к середине нынешнего года - машин и программ на основе 64-битной архитектуры, станет еще более нечего.

Третий параметр - содержимое самих страниц, подлежащих отгрузке по запросу от клиента. То, что в моем любимом редакторе HomeSite называется "весом" документа. Плюс, разумеется, вес всех сопутствующих программ. Например, если в тексте файла подключен какой-нибудь генератор случайных картинок или цитат на основе ПЕРЛа, то для показа этой части документа серверу нужно запустить в виде отдельного процесса интерпретатор ПЕРЛа весом в 250 или 400К (в зависимости от версии - цифры даны для исполнимых модулей ПЕРЛ-интерпретатора версий 4.36 и 5.003 на платформе BSDI). Очевидно, что 10 обращений к странице, использующей ПЕРЛовые включения, создают больше нагрузки на сервер, чем 100 обращений к более "тяжелой" по весу странице, в которой ПЕРЛ не используется. Обратим внимание, что с точки зрения нагрузки на коммуникационный канал между текстовым блоком, который сгенерирован скриптом, и текстовым блоком того же размера из HTML кода нет никакой разницы.

Очевидно, что три перечисленных фактора варьируют в очень разных пределах и совершенно независимо друг от друга. То есть цифра посетителей, после которой вебмастеру стоит начинать визжать (или, гораздо проще, менять провайдера интернетовского присутствия) колеблется в зависимости от самых разнообразных и никак между собой не связанных причин. По сему поводу могу привести один пример из моей собственной практики вебмастера.

Сервер nosik.neystadt.org, который я имею удовольствие администрировать, является виртуальным и сидит на машине с поэтическим именем blindcat у провайдера под названием Iserver в штате Юта, США. Кроме меня у того же провайдера арендуют паутинное пространство еще примерно 5200 фирм - американских, европейских, русских и израильских. На каждой машине сидит несколько десятков виртуальных серверов. При этом машины являются пентиумами 133 и, вроде бы, не собираются в близком будущем усложняться. Операционная система - BSDI, сервер - NCSA httpd.

Конкуренты Iserver - например, Tabnet - манят меня обещаниями, что на силиконовой графике (SGI) мой сервер побежит круче и веселей. Может, они и правы. В моем провайдере меня соблазнило обещание трех линий DS3 (44.7Мбит/сек), включенных в основные интернетовские стволы Америки - Sprint, MCI, UUnet. Это означало, что в любой точке обитаемой суши страницы, расположенные на моем сервере, будут одинаково хорошо видны. Вопрос нагрузок на сервер в те времена меня не волновал - как не волнует и сегодня, когда средний траффик там составляет около 600 обращений в час. При оформлении заказа на сервер провайдер уверил меня, что при числе посетителей ниже 30.000 в сутки мне не о чем беспокоиться.

Однако в один прекрасный день моему серверу пришлось подвергнуться очень жестокой проверке на прочность - проверке, которую сам я на своей машине ни за что не согласился бы проводить. Некий американский провайдер тестировал прокси-сервер, отправив его на выходные дни "погулять" по списку случайных адресов Паутины. Список оказался составлен криво, и на моем адресе прокси-сервер заклинило. Он начал грузить мою головную страницу в непрерывном режиме - столько раз в единицу времени, сколько получится. (Сам провайдер впоследствии объяснял, что возникла ошибка при попытке кэширования моей страницы, и при каждой неудаче с записью на свой локальный диск дурная программа вновь обращалась к моему серверу за теми же файлами, которые не удалось сохранить в прошлый раз).

Тест продолжался двое суток, за которые я написал дюжину довольно недружелюбных писем агрессору, а мои друзья в Штатах оборвали его рабочие и домашние телефоны. В понедельник утром сисадмин пришел на работу, получил мои письма и сообщения от моих друзей на автоответчике, остановил эксперимент и написал мне длинное письмо с извинениями. Из его письма я узнал, что взбесившаяся программа загрузила мою главную страницу 286.000 раз. При этом сервер на протяжении этих двух суток разрешал telnet, ftp-обращения, прием и отправку почты, даже генерацию логов - медленно, со скрипом, но разрешал. А главная страница моя содержала счетчик на ПЕРЛе, который учел примерно половину обращений ополоумевшего прокси, накрутив за выходные 120.000 ударов.

Выводы мои из этой истории читатель, возможно, сочтет ненаучными. Но мне представляется, что завалить UNIXовый сервер очень тяжело - и уж безусловно это нельзя сделать за счет простого увеличения траффика. Существуют разные техники, о которых мне случалось писать в статье про самый страшный вирус, есть пинговые и почтовые бомбы, и вообще безопасность компьютерных систем в современном мире находится в значительной степени на милости хакеров (подробности можно прочитать у моего тезки в Виртуальных Технологиях). Однако простым ростом числа обращений - в пределах, разумеется, 100.000 обращений в сутки на один Пентиум - WWW-сервер так просто не завалишь. А потому, господа вебмастеры и вебмаргариты, /trubaddurl/" TARGET="MAIN">рекламируйтесь и ничего не бойтесь. А после траффика 100.000 в день - приходите о деле разговаривать.



Copyright © 1997 Cityline Ltd.
Copyright © 1997 Антон Носик
Дизайн - Арт. Лебедев