14 лет назад 29 марта 2005 в 0:28 99

У большинства пользователей общение с поисковой системой пятью минутами никогда не ограничивается. Пишешь ей 1-2 слова, а она тебе в ответ – поток сознания из 2567537 документов. Как же оптимизировать свое общение с интернетом, сэкономить время, силы и нервы?

GOOGLE
Азы
Если вы вводите в поисковую строку словосочетание, поиск производится либо по каждому слову в отдельности, либо по всему запросу в целом – все зависит от того, какой логический оператор используется по умолчанию поисковой системой. Это может быть AND (поиск по всем словам) или OR (по каждому в отдельности).

Google по умолчанию использует AND. Таким образом, если вы напишете: “железная логика”, – то Google будет искать это словосочетание полностью. Если же напишете: “железная OR логика”, – то будут найдены страницы, где встречается только одно из этих слов.

Теперь взгляните на эту конструкцию: логика (железная OR женская). Получив такой запрос, Google отыщет для вас страницы, на которых встречается либо фраза “логика железная”, либо “логика женская”. Согласитесь, поиск начинает немного походить на программирование. По аналогии с языком С вы можете использовать вместо оператора OR символ “|”. В таком случае знаменитая дилемма “быть или не быть” будет выглядеть так: “быть | не быть”.

Предположим теперь, что вас интересует все, что связано с именем Билл, за исключением Билла Гейтса. Что делать в этом случае? Очень просто – использовать минус: Билл – Гейтс. Приведенная конструкция однозначно даст понять Google, что вам нужны все страницы, в которых упоминается имя Билл, кроме тех, где присутствует фамилия Гейтс.

Если же вам требуется искать некую фразу целиком, то воспользуйтесь для этих целей кавычками: введите “Молекулярная физика” – и будут найдены страницы, на которых встречается именно это словосочетание.

Команды особого назначения
Дополнительные команды Google позволяют сузить область поиска еще больше, а, следовательно, увеличить эффективность этого процесса. С их помощью вы можете указать Google, что не нужно просматривать все два биллиона страниц из кэша, потому что вас интересуют, к примеру, только сайты с доменной зоны .com или .ru.

Также вы можете управлять и поиском по самой странице, указывая, в какой ее части следует искать и так далее. Рассмотрим самые полезные команды.
– intitle – ограничивает ваш поиск только заголовком страницы, говоря техническим языком – содержимым тега . Для примера демонстрационный запрос intitle:первая полоса (пробелов между командой и параметром быть не должно) приведет к тому, что Google выдаст ссылки на первые полосы русскоязычных интернет-газет.

– inurl – по этой команде поиск будет проводиться только в URL. Обычно эту инструкцию используют не самостоятельно, а вместе с другими, когда хотят, например, отыскать страницу поиска или “хелп”. Так, команда inurl:search выведет список документов, у которых в адресе встречается слово search (search.aol.com, home.netscape.com/home/internet-search.html). Нередко эту команду используют хакеры, чтобы находить скрипты проверки пароля, на которые нет ссылок на главной странице сайта.

– intext – при поиске не учитываются заголовки и ссылки, просматривается только текст тела страницы (который заключен в теге ). Это бывает полезно, когда вы разыскиваете некий абзац и вам безразлично, какой у страницы заголовок и какие ссылки.

– inanchor – реализует поиск в тексте якоря. Текст якоря – это по большому счету описание ссылки. Иллюстрируем на примере HTML-кода

– site – пожалуй, одна из самых полезных и наиболее часто употребляемых команд. Позволяет ограничить поиск поддоменами указанного домена. Звучит запутанно, но на практике все гораздо проще. Предположим, нас интересуют статьи, которые публиковала gazeta.ru о выборах на Украине. В строке запроса пишем: выборы на Украине site:gazeta.ru. Можно не ограничиваться конкретным сайтом, а задать, к примеру, область. Выглядеть это будет следующим образом: программирование site:narod.ru. Тогда Google будет осуществлять поиск во всех поддоменах narod.ru.

– link – предлагает перечень страниц, которые ссылаются на заданный сайт. Для наглядности введите link:computery.ru и получите список документов, ссылающихся на computery.ru. Это просто незаменимый инструмент мониторинга для тех, кто занимается “раскруткой” сайтов.

– cache – находит копию страницы, проиндексированной Google, даже если она уже недоступна по адресу в интернете или изменила свое содержание (иными словами, это поиск в кэше Google). Пригодится для просмотра документов, “контент” которых часто меняется. Выглядит так: cache:www.news.com.

– filetype – еще одна чрезвычайно полезная команда, позволяющая искать в интернете файлы с заданным расширением. Однако будьте внимательны, параметры команды понимаются Google слишком буквально, и поэтому если вы сначала наберете filetype:htm, а потом filetype:html, то результаты поиска в обоих случаях будут разными. Google поддерживает некоторые наиболее популярные форматы от Microsoft: PPT, XLS и DOC.

Кроме того, вы можете искать даже скрипты, созданные для динамического генерирования “контента”, такие как ASP, PHP, CGI и так далее. Кстати – возвращаясь к разговору о хакерах – инструкция filetype: тоже используется ими в неблаговидных целях. К примеру, запись authorisation filetype:php может помочь злоумышленнику найти скрипт проверки пароля. И если написавший его программист был не очень грамотным специалистом, то последствия будут плачевны.

– related – эта команда приказывает Google выводить список страниц, похожих на ту, что указана в параметрах – иными словами, принадлежащих к той же категории. В частности, команда related:google.com возвратит ряд ссылок на другие поисковые машины, такие как Yahoo, AltaVista. В принципе, related: – удобное средство, если вы хотите узнать, к какой категории Google относит ваш сайт, или если хотите найти, к примеру, авторитетные информационные сайты. Дело в том, что Google при выводе результатов сортирует их в порядке значимости, и если вы введете, например, related:cnn.com, то первые позиции в списке будут занимать наиболее весомые издания схожей тематики: The New York Times, Washingtonpost и т. д.

Смешивать осторожно
Далеко не все команды Google совместимы друг с другом. Есть команды-одиночки, которые никогда не желают работать в паре с другими. Одной из таких является link: (если помните, она отображает все страницы, которые ссылаются на указанный в параметрах URL). Представьте, как было бы удобно использовать эту команду совместно с site:, чтобы задавать ограничения еще и на домены. Скажем, разве не интересно узнать, из какой доменной зоны на ваш сайт чаще ссылаются – из .ru или из .net? Однако запрос вида link:mysite.com site:ru не произведет на Google должного эффекта, поскольку link: работает только в одиночку.

Как быть в такой ситуации? Обходные пути, естественно, найдутся (ведь недаром в разработке Google принимали участие русские специалисты!). Для интереса можно поэкспериментировать с такой комбинацией команд: inanchor:mysite.com -inurl:mysite.com site:ru. В данном случае логика такова: сначала мы находим сайты, в описании ссылок которых встречается адрес нашей странички. Далее мы исключаем из результата поиска сам mysite.com и его поддомены (если таковые имеются), а затем отбираем только те документы, которые принадлежат к доменной зоне .ru.

Разумеется, не рекомендуется озадачивать Google взаимоисключающими запросами вроде: site:linux.by -inurl:by либо happy (site:ru OR site:by). После ряда испытаний хорошо себя проявили в совместной работе следующие команды: intitle:, site:, inurl:, filetype:. Проиллюстрируем их работу. Скажем, нас интересуют архивы электронных книг на английском языке. Составляем такой запрос: books intitle:”index of” inurl:ftp. В результате получим ссылки на весьма приличные FTP-архивы. Что касается запроса, то на человеческий язык его можно перевести так: нас интересуют страницы, где встречается слово books, заголовок должен содержать фразу index of (характерную для списка в FTP-архиве), а для того чтобы быть уверенными, что мы имеем дело с FTP, URL должен содержать слово FTP.

Разбираем URL по косточкам
Вы когда-нибудь вглядывались в URL, который формирует Google во время поиска? Возьмем для примера следующий адрес: http://www.google.com/search?num=55&hl=en&q=upgrade+special
Рассмотрим по порядку, что все это значит.

– num=55 – количество результатов на одной странице (может быть от 1 до 100). По умолчанию – 10, в нашем случае – 55.

– hl=en – задает язык интерфейса Google. В данном случае это английский, но если мы изменим этот параметр на hl=ru, то все надписи в Google будут появляться на русском.

– q=upgrade+special – это и есть сам запрос. К сожалению, ввести требование непосредственно в адресной строке нормальный человек не в состоянии. Потому что выглядеть оно будет так: q=%D0%BA%D0%B0%D0%BA%D1%82%D1%83%D1%81. Перед вами было слово “кактус”, если кто-нибудь не догадался. Однако в ряде случаев ручной ввод запроса крайне необходим. Например, если на вашем корпоративном ПК перекрыт доступ к веб-сайтам, но работает e-mail, и вы хотите пользоваться Google, отправляя запросы почтой на специальные службы типа Web-to-mail, то небольшая хитрость позволяет легко обойти это ограничение. Просто сохраните себе на диск страничку Google и вводите нужное слово, открывая ее с локального диска – разумеется, при перекрытом доступе к интернету результатов поиска вы не получите, но в адресной строке браузера высветится уже готовый URL с вашим запросом – копируйте его в “почтовый клиент” и отправляйте почтой.

Кроме того, вы смело можете добавить к URL еще несколько параметров.
– as_qdr=m1 – указывает максимальный “возраст” найденной информации в месяцах. Значения могут варьироваться от 1 до 12.

– safe=on – включает так называемый safe search, то есть систему фильтров, которая блокирует по большей части информацию сексуального характера.

Редактировать таким образом URL зачастую быстрее, чем менять параметры в настройках поиска.

ЯНДЕКС
Плюсы и минусы

На поле англоязычного поиска Google сумел потеснить “товарищей по команде” и на сегодняшний день является крупнейшим игроком. В русскоязычном же интернете в лидерах “Яндекс”.

Несомненным плюсом “Яндекса” является то, что он учитывает морфологию русского языка во время поиска, рассматривая все формы искомого слова. Так, если задан запрос “смотреть”, в результате поиска будут найдены ссылки на документы, содержащие кроме “смотреть” слова: “смотри”, “смотрите”, “смотрел” и т. д. Согласитесь, это очень удобно. Но при желании у вас есть возможность обуздать фантазию поисковой системы и заставить ее искать строго по указанному вами запросу. Добиться этого вы сможете, поставив восклицательный знак перед искомым словом (без пробела), вот так: “!смотреть”.

В отличие от Google “Яндекс” делает различие между заглавными и строчными буквами. Действует следующее правило: если в окне поиска вы набрали слово с заглавной буквы, то найдены будут только те страницы, на которых это слово начинается с заглавной. Если запрос написан со строчной буквы, то отыщутся все варианты написания: как со строчной, так и с заглавной. Например, в ответ на запрос “Пианист” найдутся ссылки на известный фильм Романа Поланского. А вот по запросу “пианист” будет найдено большее число страниц, – в основном, упоминания о данной профессии.
Пока мы говорили о плюсах в переносном смысле.

Теперь поговорим о них непосредственно. Чтобы показать “Яндексу”, что какое-то слово из вашего запроса обязательно должно присутствовать на найденных страничках, перед ним следует поставить знак “+”. Если же вы не желаете, чтобы какое-либо слово встречалось в результатах поиска, то запишите его со знаком “–”. Допустим, нас интересует следующее: “работа с Flash MX”. На момент написания этого текста у “Яндекса” на этот счет имелось 202254 страниц, из которых несколько тысяч (причем многие в начале списка) принадлежали интернет-магазинам, предлагающими соответствующую книгу. Но нас-то интересует бесплатная информация, поэтому модифицируем наш запрос следующим образом: “работа с Flash MX -книга”. Найденных страниц окажется заметно меньше – 136251, а информация на них будет в гораздо большей степени отвечать нашим задачам.

Таинственный язык знаков
По умолчанию при обработке запроса “Яндекс”, как и Google, использует логический оператор “и”. Это значит, что каждое слово, входящее в запрос, должно быть найдено. Переопределять данное умолчание удобно при поиске синонимов. Предположим, вам захотелось повеселиться и вы залезли в интернет, чтобы почитать что-нибудь смешное. Вам, по большому счету, все равно, что это будет – анекдоты, приколы или юмористические рассказы – лишь бы было весело. В такой ситуации можно озадачить “Яндекс” запросом вроде: “юмор | шутка | анекдот | прикол”.

В результате на первых страницах вы получите ссылки на наиболее рейтинговые ресурсы по этой тематике. Знак “|” означает, что вместо логического оператора “и” во время поиска будет использоваться оператор “или”. Иначе говоря, “Яндекс” будет требовать, чтобы на сайте содержалось хотя бы одно из перечисленных слов. Между прочим, если вы хотите использовать указанную конструкцию вместе с другими словами, заключите ее в скобки: “компьютерные (юмор | шутка | анекдот | прикол)”.

Как уже говорилось, вы можете исключить любое слово, поставив перед ним “-“. Кроме того, в запасе у вас есть еще и тильда – “~”. Одиночная тильда исключает слово в пределах предложения, двойная – в пределах документа. К примеру, запрос “работа с Flash MX ~~ цена” наиболее эффективен при отсеивании интернет-магазинов, поскольку просматривает всю страницу.

Кстати, та же логика работает с логическим оператором “и” (он обозначается как “&”). Это значит, что, введя “комплектующие && видеокарта”, вы получите ссылки, где эти слова встречаются в одном документе. По умолчанию “Яндекс” ставит одиночное “&”, и требование распространяется только на предложение.

Поиск с расстоянием
У “Яндекса” существует такое понятие, как расстояние между словами, и мы можем этим воспользоваться. Расстояние между первым и вторым словом равно 1, между первым и третьим – 2. Расстояние между соседними словами, стоящими не в том порядке, будет отрицательным: -1. Попробуем разобраться с этим на примере. Если между двумя словами вашего запроса находится знак “/” и число, то необходимо, чтобы расстояние между словами не превышало этого числа. К примеру, запрос “курсы /2 массажа” означает, что вы требуете документы, в которых между словами “курсы” и “массажа” может находиться только одно слово. То есть подходят такие фразы, как “курсы лечебного массажа”, “курсы точечного массажа” и просто “курсы массажа”.

В предыдущем случае расстояние может варьировать от 1 до 2. Хотите задать его жестко? Можно и так. Введите запрос “курсы /+2 массажа” – тем самым вы зафиксируете положение слова “массажа” относительно слова “курсы”, и фраза “курсы массажа” среди результатов поиска встречаться уже не будет.

Со знаком “/” можно комбинировать и другие знаки. Например, если вы ищите серьезный заработок, то может пригодиться следующее решение: “работа ~ /2 студентов”. Этот способ исключает такие варианты, как “работа для студентов”, “работа студентам” и т. д.

Google: три “не”
1. Не разрешает использовать маски (* и ?) для замены символов.
В поисковых системах, поддерживающих маски, вы можете ввести “мод*” и ожидать, что среди результатов поиска окажутся такие слова как мода, модель и т. д. В Google так сделать нельзя. Звездочка используется только для замены одного слова, но не символов.
2. Не поддерживает запросы, состоящие более чем из 10 слов.
Обойти это ограничение можно, если заменить наименее важные слова в запросе символом “*”. В этом случае они учитываться не будут.
3. Не обращает внимания на регистр, которым вы пишете запрос – результат будет одним и тем же.

Поисковая форма – своими руками
Ниже приведена форма, которая заставит Google искать на вашем сайте. Чтобы все заработало, разместите html-код на своей странице и укажите свой адрес вместо mysite.com. Код выглядит так:


Кроме того, вы можете модифицировать форму по своему усмотрению, добавляя новые параметры. Например, строка
заставит Google искать только текстовые документы.

Ограничение на “свежесть” результата выставляется следующим образом. Добавляете строку
– это будет соответствовать результатам трехмесячной давности. Если хотите найти данные шестимесячного возраста, вместо m3 используйте m6; если ищете информацию за год, то замените m3 латинской “y”.
Количество результатов на странице контролируется параметром
.

Как отправить “Яндекс” в конкретное место
Аналогично Google “Яндекс” тоже умеет искать информацию не по всей странице, а только в определенных ее элементах. Продемонстрируем возможные запросы.
– $title Upgrade Special – ищет в заголовках страниц название нашего журнала.
– $anchor яндекс – находит ссылки, в которых есть слово “яндекс”.
– #link=”www.uinc.ru*” – покажет все документы, которые ссылаются на сайт www.uinc.ru.
– #image=”nokia” – выберет ссылки на сайты, на которых есть картинки с названием Nokia.
– #url=”имя_сайта” – эта конструкция, по заверениям “Яндекса”, ограничивает поиск информации одним сервером. Однако работает она не лучшим образом – автору так и не удалось добиться толку от ее использования.