13 лет назад 9 декабря 2005 в 16:43 56

ПРОФЕССИОНАЛЬНЫЕ РЕДАКЦИИ OFFLINE EXPLORER ПРИГОДЯТСЯ НЕ ТОЛЬКО ДЛЯ ТОГО, ЧТОБЫ НАКАЧАТЬ ПОБОЛЬШЕ САЙТОВ ИЗ СЕТИ И СОХРАНИТЬ ИХ НА ДИСКАХ МЕРТВЫМ ГРУЗОМ. С ИХ ПОМОЩЬЮ МОЖНО СДЕЛАТЬ ГОРАЗДО БОЛЬШЕ: РАЗГРУЗИТЬ КОРПОРАТИВНЫЙ СЕРВЕР, ЗАДЫХАЮЩИЙСЯ ОТ ПОТОКА ЗАПРОСОВ, СОЗДАТЬ ПРЕЗЕНТАЦИОННЫЙ ДИСК, ИЗВЛЕЧЬ ЛЮБЫЕ ДАННЫЕ ИЗ ВЕБ-КОНТЕНТА, КЛОНИРОВАТЬ СВОЕ ИНТЕРНЕТ-ПРЕДСТАВИТЕЛЬСТВО НА РАЗНЫЕ ДОМЕНЫ, СОЗДАТЬ АРХИВ ДЕЛОВЫХ ДОКУМЕНТОВ И МНОГОЕ ДРУГОЕ.

Offline Explorer – один из самых мощных офлайновых браузеров, все возможности которого и перечислить трудно. Многие из них могут остаться невостребованными, если не найти им достойного применения. Но вот в офисе эта программа способна существенно облегчить работу любой организации. Мы не просто расскажем о наличии каких-то функций и их гипотетическом применении, а подкрепим свой рассказ реальными примерами использования Offline Explorer российскими и зарубежными компаниями. Начнем, пожалуй, с рассмотрения главной возможности Offline Explorer – создания локальных копий содержимого сайтов и их обновления.

Экономия денег на доступ в Сеть
Offline Explorer имеет встроенный веб-сервер, позволяющий выполнять просмотр загруженных сайтов на других компьютерах. Этой возможностью стоит воспользоваться, прежде всего, для экономии времени и денег.

Например, если каждый из ваших сотрудников будет сам загружать из Сети и сохранять на собственный диск веб-сайты, то у компании никаких денег не хватит на оплату трафика или времени, необходимого на все загрузки. С Offline Explorer все нужные для работы сайты достаточно загрузить лишь один раз, и они будут доступны для просмотра в вашей сети, причем без всякого копирования загруженной информации. Просмотр возможен и без установки Offline Explorer на клиентских компьютерах – достаточно одного экземпляра программы, запущенного на сервере, на котором производится скачивание сайтов.

Как это все организовать реально? Прежде всего, в настройках Offline Explorer отменяем “Только местный доступ” (“Настройки” > “Интернет” > “Соединение”). Допустим, компьютер с установленным Offline Explorer в локальной сети имеет имя nataly и IP-адрес 192.168.0.1. Тогда на других компьютерах сети в любом из браузеров в адресной строке набираем http://nataly:800 или http://192.168.0.1:800 – и в окне браузера появляются папки со всеми проектами компьютера nataly, доступные для локального просмотра.

Заметим, что компьютеры при этом могут работать не только под Windows, но и под управлением любой другой операционной системы (например, Linux или MacOS). Offline Explorer на сервере в момент получения доступа к его проектам, естественно, должен быть запущен. И, кстати, в этот же момент на том же сервере не забудьте в файерволле разрешить получение данных приложению OE.exe. Иначе вместо списка проектов для просмотра вы получите сообщение браузера “Невозможно отобразить страницу”. И еще: если на вашем сервере установлен веб-сайт компании, то доступ к папке с закачанными сайтами можно просто открыть через него. В этом случае Offline Explorer не нужно держать постоянно запущенным – он понадобится только для загрузки этих сайтов.

СНИЖЕНИЕ НАГРУЗКИ НА КОРПОРАТИВНЫЙ СЕРВЕР
О том, как разгрузить корпоративный сервер, мы расскажем на примере компании John Deer. Этот крупнейший производитель тракторов и другой сельхозтехники в Европе имеет внутренний сайт и использует Offline Explorer Pro для своих дилеров.

Каждый дилер (а их тысячи) имеет собственную копию Offline Explorer и периодически (один раз в несколько дней) обновляет офлайновую копию внутреннего сайта John Deer. В процессе же своей ежедневной работы дилер обращается к локальной копии сайта, а не “бегает” за нужными данными в интернет. В результате дилер всегда имеет доступ к сайту, даже когда у него нет под рукой интернета. Сервер же компании John Deer не испытывает перегрузок.

Для полноты картины добавим, что каждый дилер может иметь, в свою очередь, офис и многочисленных сотрудников, нуждающихся в просмотре сайта John Deer. Теперь представьте, что вся эта армия офисных работников напрямую обратилась бы к сайту John Deer – этот сервер просто задохнулся бы от такого количества запросов.

СОЗДАНИЕ ПРЕЗЕНТАЦИОННЫХ ДИСКОВ
Offline Explorer предоставляет несколько вариантов по экспорту загруженных проектов: можно скопировать экспортируемые файлы в указанный каталог или сжать их в ZIP-файл, MHT-архив или в файл HTML Help (.CHM); можно отправить все файлы в кэш Internet Explorer, и они будут доступны в режиме “Автономная работа”; можно сделать автозапускаемый CD. Последний вариант особенно пригодится в офисе, поэтому заслуживает более подробного рассмотрения.

Сам Offline Explorer не записывает информацию на диски, а лишь подготавливает веб-сайт (проект) для записи на CD. Для этого как раз и служит функция экспорта (меню “Файл > Экспорт”). В процессе экспорта происходит копирование загруженного сайта в указанный каталог, который и должен быть позже записан на диск CD-R или CD-RW. (Кстати, в диалоге “Экспорт” в качестве формата имен файлов лучше выбрать Joliet – CD-R 64 symbols – имена файлов при этом не будут содержать более 64 символов, что иногда требуется при публикации на CD.) Для просмотра таких дисков не требуется наличия Offline Explorer – все веб-страницы будут полностью совместимы со всеми современными браузерами.

Однако гораздо интереснее не просто скинуть нужные веб-сайты на диски, а сделать на их основе автозапускаемый CD. Делается это так же, как и в предыдущем случае, только дополнительно активируются опции “Сделать автозапускаемый CD” и “Создать файл содержимого” (для упрощения просмотра с диска). После завершения процесса экспорта в указанном каталоге вместе с папкой проекта появятся файлы contents.htm, autorun.inf и oe_open.exe. Вы вставляете диск в привод CD-ROM, и файл contents.htm автоматически открывается в браузере. Отличное решение для демонстрации партнерам и клиентам текущего состояния собственных веб-разработок и интернет/интранет-представительств.

TEXTPIPE И OFFLINE EXPLORER
Сбор данных с веб-сайтов для собственных нужд – одна из самых распространенных задач, возникающих в любой организации. Например, для сравнения цен от разных поставщиков придется просматривать каталоги продуктов с информацией об их стоимости. Довольно часто требуется выбрать из каталога партнерских или клиентских сайтов одни адреса электронной почты или URL.

Выполнять сложные операции над заданным пакетом файлов (в том числе извлечение данных) могут многие программы, но лидерство в этом деле по праву принадлежит условно бесплатной утилите TextPipe. Эта программа снабжена удобным графическим интерфейсом, что делает ее гораздо удобнее других аналогов, с которыми можно общаться только в командном режиме. И, конечно же, можно с успехом воспользоваться TextPipe для извлечения данных с локальных копий сайтов, загруженных из интернета. Нужно просто указать программе папку для обработки, выбрать подходящий фильтр, запустить его на выполнение и на выходе получить результат. Однако все так просто только на словах, поскольку TextPipe трудно назвать интуитивно понятной программой.

С Offline Explorer же вы можете выполнять анализ и постобработку (извлечение данных) загруженных веб-сайтов, особо не вникая в тонкости работы TextPipe. Offline Explorer способен передать загруженные веб-сайты этому внешнему инструменту, который выполнит все необходимые операции по извлечению или изменению нужных данных или даже отправит их в базу данных. Благодаря интеграции Offline Explorer с TextPipe использование этой мощнейшей и в то же время сложной для простого пользователя программы намного упрощается. Вы можете задать правила извлечения данных, поместить их в текстовые файлы или базу данных и впоследствии использовать их в качестве фильтров TextPipe. Извлеченные из веб-страниц данные представляются в удобном виде для загрузки в базу данных и дальнейшего анализа.

Как это все работает в Offline Explorer? Вы создаете обычным образом проекты и загружаете их на свой жесткий диск. (Как это сделать самым оптимальным образом для разных типов сайтов, мы подробно рассказали в статье “Оставайся офлайн” в июльском выпуске журнала.) Далее выделяете мышью нужные проекты и выбираете в меню “Сервис” “Извлечение данных”. В появившемся диалоговом окне выбираете заготовленный заранее файл фильтров и запускаете процесс. Offline Explorer “знает”, какие типы файлов содержат текст, так что он передает для обработки в TextPipe только такие файлы. Дополнительно можно указать программе “Обрабатывать только текстовые и HTML-файлы”.

Конечно, создание фильтров для TextPipe по плечу только продвинутым пользователям. У занятых людей обычно нет времени на освоение подобных премудростей, им бы лучше воспользоваться готовыми решениями. И такие решения можно найти в интернете – например, по этому адресу: www.zipsites.ru/mine/article/oe/common.zip. Этот крошечный фильтр (всего 2 кб) предназначен для очистки кода сайтов от баннеров, счетчиков, избыточных тегов, для замены текста и удаления дублированных данных. После обработки этим фильтром сохраненные на диске сайты могут стать “легче” на несколько десятков мегабайт.

Однако запускать этот фильтр “на живую” не советует даже его автор. Лучше сделать копию загруженного сайта (“Правка > “Копировать” > “Вставить”), и на этой копии потренироваться. Сказанное относится к использованию всех фильтров TextPipe на первых порах – до тех пор, пока вы не приобретете достаточно навыков.

Впрочем, создавать свои фильтры совсем не обязательно – в большинстве случаев достаточно набора стандартных, имеющихся в TextPipe. В этом случае при передаче проекта на обработку в TextPipe из Offline Explorer необходимо выбрать пункт “Запустить TextPipe с новым фильтром”. После этого любые фильтры TextPipe (меню Filters) можно выбрать вручную и поставить их на выполнение один за другим. Очень удобен специальный мастер (TextPipe Filter Wizard), в котором и задаются все необходимые фильтры и параметры фильтрации.

ИЗВЛЕЧЕНИЕ ИНТЕРНЕТ-АДРЕСОВ

Допустим, нужно извлечь все URL с загруженного сайта. При этом нам обязательно понадобится фильтр TextPipe Extract URLs, который соберет все интернет-адреса (http://, https://, ftp:// и gopher://), содержащиеся на страницах этого сайта, и запишет их в текстовый файл (по одному в каждой строке). Этот фильтр неплохо сопроводить сортировкой с опцией удаления дубликатов строк. Затем, возможно, придется применить фильтр поиска словосочетаний и замены их на другие. В заключение стоит удалить пробелы в начале каждой строки и прочий “мусор”, если он появится в списке.

TextPipe с определенным фильтром можно запустить автоматически сразу после завершения загрузки проекта. Просто добавьте строку в поле URL при создании этого проекта:
TextPipe=c:\path\filter_filename.fll
А если в конце этой строки дописать ;/Q, TextPipe после обработки загруженных файлов так же автоматически закроется.

СБОР E-MAIL-АДРЕСОВ
Извлечь адреса электронной почты с загруженных сайтов может и сам Offline Explorer – без помощи какой-то внешней утилиты. Достаточно добавить строку в поле URL:
Additional=CollectEMails=c:\somefile.txt, и Offline Explorer соберет адреса и сохранит их список в заданном файле (в приведенной строке можно, естественно, и диск другой задать, и имя файла изменить). Список будет отсортирован, дублирующихся адресов в нем не будет.

Преимущество Offline Explorer при выполнении данной задачи состоит в том, что он может извлекать e-mail-адреса, даже если они зашифрованы. Очень часто разработчики сайтов используют скрипты для динамического вычисления и отображения адресов электронной почты, чтобы помешать определять их автоматически. И хотя изначально при разработке Offline Explorer задача сбора адресов не ставилась, его механизм определения ссылок во всевозможных файлах и скриптах настолько мощный, что спрятать e-mail практически невозможно. Примечательно, что адреса извлекаются не только из стандартных страниц, но и из флэш-апплетов, XML-файлов (например, RSS-новостей) и прочего контента.

СОЗДАНИЕ КОПИЙ САЙТОВ

Offline Explorer имеет встроенный редактор с подсветкой управляющих элементов, так что вы всегда можете быстро загрузить свой веб-сайт, отредактировать его и потом использовать любую FTP-программу для обновления информации на нем. Если добавить, что редактировать таким образом можно не только свои сайты, но и любые другие, а выкладывать обратно в интернет совершенно не обязательно по первоначальному адресу, то у вас могут сразу же появиться оригинальные идеи по применению этой возможности.

Мы ни в коем случае не подводим вас к мысли клонировать сайты конкурентов, дабы оттянуть на себя их трафик с поисковых интернет-машин. Почему бы просто не “разложить” свой веб-проект на разные домены? Причем именно в таком состоянии, в котором он сейчас находится. Если в этом есть необходимость, то сделать это будет несложно, особенно с учетом того, что часть работы можно автоматизировать – закачку исходного сайта Offline Explorer и изменение части информации с помощью TextPipe.

СОЗДАНИЕ СТАТИЧНОЙ КОПИИ ДИНАМИЧЕСКОГО САЙТА
Зачем может понадобиться создание подобной копии? Как известно, динамические сайты, управляемые ASP, PHP и другими скриптами, работают несколько медленнее, чем просто HTML-страницы. Там и обращения к базе данных, и интерпретация языков программирования на сервере, и прочее. Кроме того, динамические страницы больше подвержены атакам (например, SQL injection), чем статичные. В то же время на большинстве таких сайтов информация обновляется не очень часто (бывает, только раз в месяц).

Offline Explorer здесь придется как раз кстати – загрузит весь сайт и сделает его статичную копию – просто HTML. Когда на веб-сайте произойдут изменения, Offline Explorer можно опять запустить, он пройдется по измененным страницам. Такой сконвертированный локальный сайт будет работать намного быстрее. Кстати, статичную копию сайта можно точно так же, как сказано выше, отредактировать, обработать TextPipe и закачать на любые домены – и в интернете статичная копия будет работоспособной.

При создании проекта для такой задачи рекомендуется установить переключатель на “Онлайн-трансляция” в окне свойств проекта (“Дополнительно” > “Трансляция ссылок”). Тогда все внешние ссылки на скачанных страницах будут указывать на оригинальные сайты. Также это позволит совместить статический сайт с динамическим. Например, статической будет часть сайта, которая относительно редко обновляется. Другие же разделы, такие как форум, гостевая книга и прочее, можно исключить из загрузки с помощью “Фильтров URL” проекта. При просмотре такого проекта в офлайне все ссылки на исключенные области сайта будут вести на оригинальный динамический сайт.

ОРГАНИЗАЦИЯ ПОИСКА НА ДИНАМИЧЕСКОМ САЙТЕ
Offline Explorer может проиндексировать все слова на всех страницах сайта и поместить их в базу данных для поиска. Для организации подобного поиска на своем сайте компания MetaProducts (www.metaproducts.com) разработала небольшую утилиту, во многом аналогичную программам для локального поиска – она осуществляет разбор скачиваемых и передаваемых Offline Explorer Enterprise файлов по составным словам и формирует индекс соответствия “слово <> URL страницы, на которых оно встретилось”.

Форма онлайн-поиска обращается к этой базе данных для быстрого нахождения страниц, в которых встречаются запрашиваемые слова. Такое решение подходит для сайтов со смешанным типом данных – когда не все содержимое страниц хранится в базе (и может быть проиндексировано средствами сервера баз данных), а часть страниц статична и просто лежит на диске сервера. Что интересно, таким образом можно делать поиск по любому указанному сайту, периодически переиндексируя его.

OLE-АВТОМАТИЗАЦИЯ
OLE-автоматизация порадует программистов. Она открывает для них новые направления разработки их собственных приложений, предназначенных для загрузки и обработки веб-страниц на базе версии Enterprise. Можно, например, написать программу, используя Visual C++, Visual Basic, Delphi или другую COM-совместимую среду разработки для запуска новых загрузок и обработки загруженных веб-сайтов через Offline Explorer.

Версия Enterprise обеспечивает полный доступ к своим папкам, проектам и загрузкам. Планируется, что интерфейс OLE-автоматизации в каждой новой версии будет расширяться. С программой поставляется полная справка по всем объектам и их свойствам, которые предоставляются Offline Explorer Enterprise. А посмотреть, как работает OLE с Offline Explorer, можно в “исходниках” трех небольших программ, написанных на Delphi, C++ и Basic и устанавливающихся вместе с браузером.

ОБНОВЛЕНИЕ ПРОЕКТОВ С УДАЛЕННЫМИ ФАЙЛАМИ
Даже при наличии огромных жестких дисков невозможно годами копить на них информацию для автономного просмотра. Время от времени необходимо скидывать загруженные сайты на CD– или DVD-диски, перед этим экспортировав их в нужный формат. (Например, в CHM – все экспортируемые сайты сожмутся в единый файл, и для его просмотра Offline Explorer больше не понадобится.) При этом совершенно не нужно удалять сами проекты Offline Explorer – достаточно удалить только файлы, загруженные этими проектами (“Файл” > “Удалить” > “Только файлы Проекта”).

Offline Explorer Enterprise при этом спросит, нужно ли оставлять информацию об удаленных файлах. В случае положительного ответа, несмотря на такое удаление, Offline Explorer будет загружать не весь проект целиком (включая старые, удаленные вами файлы), а только новые или обновленные файлы с веб-сайта. Хитрость тут в том, что информация об удаленных файлах сохраняется в специальной компактной базе данных.

Пользуясь этой возможностью Offline Explorer, вы сохраняете свободное место на диске и предотвращаете хранение дубликатов файлов. Если ваши проекты предполагают постоянную загрузку огромных пакетов информации, например подборок офисных документов в PDF, то эта функция окажется для вас особенно полезной.

Практическое применение многих возможностей профессиональных редакций Offline Explorer (Pro и Enterprise) показалось нам настолько очевидным, что мы решили оставить их на ваше усмотрение. И все же – вот вам несколько наводящих советов. Чтобы утром на рабочих столах ваших сотрудников появилась свежая пресса (курсы валют, новости делового мира, очередной выпуск онлайнового издания и так далее), воспользуйтесь удобным планировщиком Offline Explorer и его же менеджером расписания.

А применив функцию автоматического дозвона в заданное время (например, льготное ночное), вы не только своевременно получите необходимую веб-информацию, но и сэкономите деньги на оплате за доступ в Сеть. Создайте архив ежедневно обновляемой информации, воспользовавшись возможностью сохранения старых загруженных файлов (поддерживается до 10 тысяч старых копий файлов). Используйте макрокоманды в начальном адресе проекта – и вы получите различные данные в нужное время, день, месяц и год.

Чем может помочь TextPipe?
TextPipe (www.crystalsoftware.com.au/textpipe.zip) – один из самых быстрых и мощных инструментов обработки текстов. Применяется для автоматизации обработки (в том числе форматирования и конвертирования) текстовых файлов (TXT, HTM, XML, CSV, TAB, PRN и так далее) – замены в них текста, выполнения сложных преобразований и тому подобного.

В TextPipe Pro встроено почти полторы сотни фильтров практически на все случаи жизни: для разбивки и объединения файлов, добавления номеров строк, преобразований между OEM и ANSI, удаления столбцов, двоичных символов, кодов ANSI, дублирующихся строк кодов HTML, конвертации почтовых приложений из одного формата в другой и так далее. Поддерживается сложный поиск/замена, возможна связь с любой ADO/ODBC-базой и выполнение SQL-запросов с сохранением полученных результатов в файлах различного формата, работа из командной строки и многое другое.

Дополнительную информацию о TextPipe можно найти на сайте программы: www.crystalsoftware.com.au/offlineexplorer.html. Там же можно скачать русификатор интерфейса (www.crystalsoftware.com.au/textpipe/russian.zip) и русскую систему помощи (www.datamystic.com/textpipe/textpipe_russian.zip).

Немного истории
Необходимость скачивания сайтов для внутренней интрасети была основной причиной создания самой первой версии Offline Explorer, который в 1997 году еще назывался Web Downloader. Продукт был сделан именно для публикации сайтов через корпоративный сервер компании Microsoft IIS. В дальнейшем к Web Downloader были добавлены возможности для индивидуальной работы, и с 1998 года он стал называться Offline Explorer.

Offline Explorer способен извлекать с сайтов e-mail-адреса, даже если они зашифрованы
Создайте в своей внутренней интрасети копию сайта anekdot.ru, и вы сбережете гигабайты трафика