15 лет назад 4 января 2004 в 3:58 114

Слово SPAM придумано корпорацией Hormel. Расшифровывается оно как Spiced Ham, что в переводе на русский означает всего-навсего перченую ветчину. С появлением этого термина связана довольно интересная история, из которой напрямую вытекает отношение к нему приличного человека.

НЕМНОГО ИСТОРИИ
Все началось в тридцатые годы прошлого века, когда на складах американской компании Hormel образовалось огромное количество мяса той самой свежести, которая, по мнению мессира Воланда, является вздором. Выбрасывать это мясо владельцам было жалко, и они развернули колоссальную по размаху маркетинговую кампанию для того, чтобы как-то обменять плохо пахнущий товар на деньги, которые, как известно, запаха лишены напрочь. Разумеется, простые граждане этот товар покупать не стали, но кстати подоспевшая война позволила бойким коммерсантам впарить свои консервы американской армии, расплатившейся с ними деньгами налогоплательщиков (о солдатах, которым предстояло все это кушать, как и положено, думали в последнюю очередь).

Однако такое количество консервов армия проглотить не смогла (а может быть, и не захотела, учитывая их происхождение). Тогда на помощь пришли союзники, которым и досталось сомнительное удовольствие стать последними владельцами консервов из тухлого мяса – американцы воспользовались тем, что им самим в глотку не лезло, для помощи соратникам по антигитлеровской коалиции в рамках ленд-лиза. В результате большую часть консервов потребила послевоенная Британия.

И не забыла об этом “подарке”. В начале семидесятых годов британцы из Monty Python своеобразно отомстили американским дельцам, сделав очень злой киноролик. Действие этого ролика происходит в ресторане, меню которого состоит только из спама в различных вариантах, и компания викингов дружно распевает песенку со словами “SPAM, SPAM, SPAM…”.

Современное же значение это слово получило тогда, когда в новостных конференциях Usenet стали появляться рекламные письма, которые тут же окрестили спамом. Долго такой спам не мог просуществовать по определению: жесткие правила Usenet привели к тому, что администраторы быстро отфильтровали рекламу и сделали оргвыводы относительно тех, кто эту рекламу рассылал.

Есть у спама и более цивильное название – unsolicited commercial email (UCE), то есть непрошеная коммерческая электронная почта. Правда, под это определение не подпадают всевозможные “письма счастья” или “послания мира”, которые лишены коммерческой составляющей, но досадить пользователю могут точно так же, как и рекламные рассылки.

ЧТО В ЭТОМ ПЛОХОГО
Для тех, кто занимается наполнением Сети интересным содержанием, экономический эффект от спама прямо противоположен эффекту от рекламы. Фактически спам – это реклама, за которую платит получатель. Причем платит не так мало, как это может показаться. Со временем содержание рекламы в общем потоке входящей корреспонденции растет лавинообразно: по истечении первого месяца спам составляет примерно половину всей почты, после второго месяца количество рекламных писем уже в два-три раза превышает полезное содержимое почтового ящика, а через три месяца активной эксплуатации адреса практически вся входящая почта состоит из спама.

Важно помнить и о том, что российский пользователь в основном имеет дело не с простыми спамерами, а спамерами российскими, у которых абсолютно отсутствует чувство меры. Если зарубежный спам представляет собой очень короткое письмо со ссылкой на сайт, то широкая русская натура требует вложить в письмо файл Word с подробным рассказом о предлагаемом товаре или услуге (и непременным макровирусом внутри) или картинку с образцами предлагаемой продукции.

ПОДРУЧНЫЕ СРЕДСТВА
В общем случае каждый пользователь имеет как минимум два электронных адреса: служебный – name@mywork.com – и домашний – name@myhomeprovider.ru. При этом по старой российской традиции оба адреса периодически просматриваются и со служебного, и с домашнего компьютера. Если служебный траффик для пользователя не очень принципиален, ибо его оплату берет на себя предприятие, которое может само позаботиться о своих деньгах, то о траффике, приходящем на домашнюю машину, заботится только он сам.

Не следует забывать и о том, что любое письмо, которое уже попало на сервер вашего домашнего провайдера, вами уже оплачено, поскольку ни один провайдер не имеет привычки разбираться с вашей почтой – его интересует только траффик, который он будет считать достаточно аккуратно. Следовательно, если рекламное письмо находится на вашем личном почтовом сервере, то остается только с тяжелым вздохом подсчитывать убытки. (Если таких писем приходит много, то лучше всего обратиться к провайдеру с просьбой предоставить вам другой ящик: спамеры имеет обыкновение продавать друг другу адреса своих “клиентов”, и очень скоро вас просто завалят спамом.)

Чтобы этого не случилось, заводим два адреса на бесплатном сервисе, которые могут собирать почту с других серверов (например, www.mail.ru или www.yandex.ru). Первый адрес – one_name@halava.ru – нужен для того, чтобы собирать на него всю служебную корреспонденцию с name@mywork.com, а второй – two_name@halava.ru – для того, чтобы ссылаться на него во всевозможных форумах, в чатах и прочих местах всемирной паутины. Желательно выбирать такой сервис, который предлагает своим пользователям систему защиты от спама.

В качестве примера рассмотрим один из самых популярных в России почтовых сервисов – www.yandex.ru. Все входящие письма проходят там три уровня фильтрации. На первом этапе отбрасывается явный спам, то есть письма, приходящие с неадминистрируемых почтовых серверов, либо с адресов, которые уже успели себя скомпрометировать. Далее почту проверяет антивирусная программа, которая отсекает все письма, не содержащие ничего, кроме вложенного вируса. И, наконец, особым образом помечаются письма, разосланные подозрительно большому количеству людей.

Таким образом, наша технология работы с почтой будет такова (или примерно такова – простор для вашей фантазии остается): заголовки служебных писем, которые собраны на адрес one_name@halava.ru, следует сначала просмотреть через веб-интерфейс, удалить все, что явно не имеет отношения к работе, и только потом загрузить их на свою машину; домашний адрес name@myhomeprovider.ru следует давать только очень хорошим знакомым или нужным людям, во всех остальных случаях надо использовать адрес two_name@halava.ru.

Казалось бы, адрес two_name@halava.ru в этой схеме является лишним, но это не совсем так. Дело в том, что адрес one_name@halava.ru не будет знать никто, кроме вас, его предназначение – быть “зеркалом” вашего служебного адреса, только “зеркало” это будет наделено дополнительным интеллектом, предлагаемым конкретным сервисом. На one_name@halava.ru постепенно образуется архив наиболее важных для вас писем, что явится дополнительной гарантией их сохранности в случае каких-либо происшествий на локальной машине. И вообще, этот адрес вы завели всерьез и надолго.

А two_name@halava.ru является вашим штатным спамосборником – “засвечивать” на форумах следует именно этот адрес. Если же в один прекрасный день вам просто надоест разгребать горы спама для того, чтобы в очередной раз убедиться в отсутствии какой-либо полезной информации, то просто смените этот адрес на three_name@halava.ru и так далее.

Такая методика позволяет радикально снизить объем ненужных писем, которые попадают на ваш компьютер или почтовый сервер вашего провайдера (что в денежном выражении – одно и то же). Если следовать этой технологии, то многие проблемы, которые могли бы у вас возникнуть из-за деятельности спамеров, будут решены. Эксперименты автора с сервисом “Яндекс-Почта” показали: сервис удаляет до 40% спама, что является неплохим результатом.

Однако есть у такого способа и минусы. Первый – необходимость пересылки всей служебной почты (а там спама больше всего) на другой адрес, что приводит к увеличению общесетевого траффика. Второй – время, которое потребуется для разбора корреспонденции. Если ее общий объем зашкаливает за две сотни писем в день, то следует подумать и о других методах.

СЕРВИСЫ
Для эффективного противодействия спаму можно использовать сервисы, специально созданные для его отлова и уничтожения. Русскому пользователю лучше всего прибегнуть к помощи сервиса Spamlock (www.spamlock.ru). При регистрации на этом сервисе следует указать почтовый адрес, с которого следует забрать почту для проверки. Затем пользователю дается другой адрес name@spamlock, который он и должен указывать вместо реального. Таким образом, помимо сокрытия своего основного адреса, роль которого теперь будет выполнять name@spamlock, пользователь получит в свое распоряжение достаточно серьезный инструмент для фильтрации спама.

Отличие этого сервиса от того инструмента для борьбы со спамом, который интегрирован в “большие” почтовые сервисы, заключается в чуть большей эффективности отсева и в отсутствии необходимости заводить отдельный почтовый адрес. Однако данный метод требует получения оригинального адреса name@spamlock для каждого реального адреса. Это доставляет определенные неудобства пользователям, имеющим несколько почтовых ящиков. Подобного недостатка лишен сервис “Спамтест” (www.spamtest.ru). После регистрации на этом сервисе вы сможете направлять на него письма из всех ваших ящиков, а получать их уже размеченными – на основной.

Эффективность “Спамтеста” достигает 90%. Но и в работе этого сервиса есть один нюанс, который может сделать его непригодным для некоторой категории пользователей. Дело в том, что для фильтрации спама используются эвристические методы, которые заключаются в проверке письма на наличие в его тексте признаков спамерского содержания, а именно – определенного набора и распределения по письму специфических словосочетаний. А эти словосочетания могут быть использованы (да что там греха таить – наверняка используются) во вполне цивилизованных пресс-релизах, которые могут запросто попасть в корзину и остаться непрочитанными.

ПРОГРАММЫ
Программ, отсеивающих спам, существует превеликое множество, и рассмотреть их все в данной статье не представляется возможным. Мы остановимся лишь на двух из них. Пожалуй, одной из самых надежных программ, защищающих почтовый ящик пользователя, является Winantispam (www.winantispam.com). Идея, заложенная в эту программу, очень проста и предельно эффективна. Дело в том, что спамер никогда не отвечает на письма.

Поэтому при поступлении письма с адреса, который отсутствует в белом списке, программа сама направляет его автору ответное послание с просьбой подтвердить его получение. Если в течение некоторого времени программа получит обратно свое собственное письмо с подтверждением, она занесет соответствующий адрес в белый список. В противном случае адрес будет занесен в черный список, и пользователь больше никогда не получит с него писем.

Более мягким, но менее эффективным средством является программа SpamPal (www.spampal.org). Она использует в своей работе списки DNSBL (иначе их называют blocking lists), где находятся адреса серверов интернета, замеченных в распространении спама (в частности, списки очень авторитетной организации Spamhaus (www.spamhaus.org/sbl), которая занимается учетом всех спамерских групп).

Кроме того, можно воспользоваться списком серверов с открытыми рилеями, которые часто используются спамерами для организации рассылок. Обычный, не открытый почтовый сервер пропускает почту либо (упрощенно говоря) изнутри наружу, либо снаружи внутрь; но только не снаружи наружу. Открытый же рилей – это почтовый сервер, который пропускает через себя почту в любую сторону. Устанавливает спаммер соединение с таким почтовым сервером и спокойно посылает через него почту. При этом в письмах остается IP сервера, а не спаммера. Таких открытых рилеев в мире – миллионы.

ФИЛЬТРЫ

В свое время почтовые ящики жителей Рунета буквально трещали от писем, рассылаемых “Центром Американского Английского”. Вопрос о том, как лучше настроить фильтр, который будет сразу отправлять эти письма в корзину, активно обсуждался на форумах. Загвоздка была в том, что спамер ни разу не повторился ни с темой письма, ни с обратным адресом. Но один повтор все же обнаружился – телефон рекламируемой компании в теле письма. В итоге простейший фильтр, определявший для программы правило, согласно которому она должна удалять письмо, содержащее конкретный телефонный номер, сберег нервную систему многим пользователям.

Этот пример служит отличной иллюстрацией тому, что в современном почтовом клиенте значительную часть спама можно отсеивать при помощи встроенных фильтров. Наиболее популярный метод сортировки заключается в том, что все письма от известных вам корреспондентов аккуратно распределяются по своим папкам, а все остальное после беглого просмотра попросту удаляется. Но правила сортировки могут быть и более сложными, учитывающими тему и текст письма, отправителя и получателя.

ПОЛЕЗНЫЕ СОВЕТЫ
1. Никогда не оставляйте на форумах или в гостевых книгах ваш электронный адрес в виде name@server.com, поскольку существуют специальные программы по сбору адресов, которыми пользуются спамеры для пополнения своей базы. Если надо оставить обратный адрес, то пишите его так: name at server.com.
2. Старайтесь не выбирать для себя адреса, о существование которых можно легко догадаться. Например, адрес vasya@mail.ru существует наверняка, и спамеры об этом знают. Используйте более изощренные имена.
3. Не верьте обещанию спамера прекратить бомбардировать ваш адрес почтой, если вы ответите на его письмо особенным образом. Ваш ответ только подтвердит то, что данный адрес реален и вы читаете все письма.
4. Спам прекратится только тогда, когда он потеряет экономический смысл. Если вы все же прочитали рекламное письмо, то не покупайте то, что оно рекламирует. Когда заказчики рассылок увидят, что подобная деятельность не приводит к увеличению объема продаж, они просто перестанут рассылать спам.

Виды спама

Неверно считать, что спамом может быть только реклама. На сегодняшний день спамом принять считать:
1. Прямую рекламу товаров и услуг.
2. Предложение принять участие в какой-то коммерческой программе. Скорее всего, эта программа окажется обыкновенной пирамидой.
3. Предложение посмотреть конкретный сайт.
4. Письма-лавины, которые предлагают вам разослать полученное письмо по всем известным вам адресам. Это могут быть не только “письма счастья”, которыми увлекаются семиклассницы, но и вполне взрослые и обоснованные послания, например “письма в защиту мира” или “письма протеста” против чего угодно.
5. Информационные письма, авторы которых хотят рассказать вам что-то, что вам вовсе не интересно.
6. Просто набор символов. Это самый плохой случай: вполне возможно, что кто-то решил насолить именно вам.

Семантика
Семантический метод проверки письма, подразумевающий использование эвристики и сигнатур, является наиболее интеллектуальным. В этом и его достоинство, и его недостаток, поскольку письма, проверенные только семантическим методом, невозможно наверняка отнести к какой-либо конкретной категории.
В процессе эвристической проверки программа ищет в тексте термины и словосочетания, использование которых характерно для текста определенного рода. Если такие объекты присутствуют в тексте, то по их количеству программа сама делает вывод о том, какому вопросу посвящен данный текст.

Метод сигнатур дает более надежный результат, поскольку в основе этого метода лежит поиск того, что уже однажды встречалось в рекламном письме. Фактически программа пытается понять стиль автора письма, для того чтобы впоследствии идентифицировать данного автора. Практика показывает, что человеку очень тяжело придумать два оригинальных текста на одну и ту же тему, поэтому в новом тексте обязательно останутся следы старого, которые программа и обнаружит.

Формальные признаки
Самым надежным методом фильтрации спама являются формальные методы, поскольку они опираются только на то, что явно известно. А поскольку спамом занимается немало организаций, информации накоплено более чем достаточно.

Во-первых, программа проверяет адрес отправителя. Не исключено, что этот адрес уже имеется в черном списке – количество спамеров хоть и велико, но ограничено, и они не могут пользоваться любым адресом интернета в качестве обратного.

Во-вторых, программа проверяет само письмо на наличие в нем некоторых формальных признаков, которые позволяют идентифицировать его как спам. Например, спамом будет названо любое письмо без обратного адреса или письмо, адресованное большому числу получателей.

Сын священника
Томас Бейз родился в 1702 году в Лондоне, в семье священника. Несмотря на то что еще в раннем детстве у Томаса начали проявляться математические способности, семья приняла решение о том, что он станет священником. Свою духовную службу Томас Бейз завершил в 1752 году.

Еще будучи священником, он был избран членом Лондонского Королевского Общества. Произошло это в 1742 году, причем на тот момент у Бейза не было ни одной опубликованной работы по математике, не считая анонимно выпущенной им в 1736 году статьи “Введение в теорию флюксий, или В защиту математиков от нападок автора”.

Первой компанией, успешно применившей теорему Бейза на практике, стала основанная математиком Майком Линчем Autonomy, которая реализовала систему интеллектуального поиска информации. В основе этой системы лежит технология DRE (Dynamic Reasoning Engine), в которой “встретились” вероятностные методы Томаса Бейза и разработки по теории информации Клода Элвуда Шеннона.
Компания Microsoft использовала тот же аппарат для реализации системы поиска неисправностей в Windows XP. Это не первый опыт софтверного гиганта по применению DRE – упомянутый метод использовался при создании знаменитого “Мистера Скрепки” (Mr Clippy).

BayesIt!
Почтовый клиент The Bat! помимо встроенных функций может воспользоваться услугами плагина BayesIt! (klirik.narod.ru/usefuls/bayesit.htm). Права на него не принадлежат Ritlabs, однако она рекомендует пользоваться этим плагином для наиболее эффективной фильтрации спама. Работа BayesIt! основана на теореме Бейза, которая в настоящее время широко используется софтверными компаниями, имеющими дело с расчетом вероятности верности гипотезы в условиях, когда на основе наблюдений известна лишь частичная информация о событиях. Другими словами, по формуле Бейза можно более точно просчитывать вероятность, учитывая как ранее известную информацию, так и данные новых наблюдений.

BayesIt! является самообучающийся программой. Обучение начинается еще в процессе инсталляции, когда программа предлагает пользователю показать ей папки, содержащие “правильные” письма, и папки, в которых находится спам. Хорошо обученный BayesIt! сможет противодействовать даже такому приему спамеров, как подмена русских букв транслитом.

Эффективность работы этой программы в большой степени зависит от терпения, с которым пользователь будет ее обучать. При определенных трудозатратах можно добиться очень высокого процента распознавания рекламных писем. Следует учесть, что BayesIt! изначально не имеет базы данных и поэтому будет считать нежелательным письмо только на основании своей “учебы”. Так что фильтровать с его помощью теоретически можно все что угодно.