Перейти на главную страничку сайта (список статей, файлы для скачивания)

ФОРУМ (здесь можно обсудить эту статью, а также любые проблемы программирования на различных макроязыках и в скриптовых средах)

Плагин ScrapBook для браузера Firefox, скачиваем содержимое сайтов

Содержание:

Общее описание и установка
Сохранение веб-содержимого
Организация скачанного содержимого
Редактирование сохранённых страниц
Средства поиска
Как это хранится
Замеченные неприятности
Дополнения к ScrapBook

Общее описание и установка

ScrapBook — это мощное бесплатное расширение для популярного браузера Firefox, которое позволяет сохранять веб-страницы на компьютер для их последующего просмотра оффлайн (без подключения к Интернету) и управлять их коллекцией. ScrapBook интенсивно развивается в течение продолжительного времени, начиная с июля 2004 года. Новые релизы появляются в среднем чаще, чем раз в месяц. ScrapBook будет полезен тем, кто серьёзно занимается поиском, сбором и обработкой информации в Интернете, а также тем, кто не имеет возможности пользоваться Интернетом непрерывно.

На момент написания этой статьи актуальная версия плагина — 1.3.3.7 от 28.06.2008 г. Сайт плагина находится здесь: http://amb.vis.ne.jp/mozilla/scrapbook/index.php?lang=en.

С помощью плагина сохраненные страницы можно рассортировать по папкам, отредактировать, добавить к ним комментарии и разметить разноцветными маркерами. Благодаря многочисленным возможностям ScrapBook иногда называют «веб-альбомом».

Вот основные возможности ScrapBook (это далеко не полный список):

Установка ScrapBook происходит практически мгновенно и полностью автоматически. Чтобы установить плагин, зайдите на сайт дополнений Firefox, на страничку ScrapBook https://addons.mozilla.org/ru/firefox/addon/427:

Нажмите на ссылку «Добавить в Firefox», в результате чего появится окно «Установка программного обеспечения», в котором необходимо нажать на «Установить»:

Дальше установка пойдёт автоматически, а в конце будет выдано окно с предложением перезапустить Firefox, что и следует проделать.

После установки функционал ScrapBook доступен в главном меню браузера, в контекстном меню, в специальной боковой панели (что очень удобно), а также имеется специальный значок в строке состояния, в правом нижнем углу браузера. В меню браузера "Вид" - "Панели инструментов" - "Настроить..." найдите и перетащите иконку ScrapBook на нужную вам панель инструментов. Вы получите кнопку, с помощью которой можно будет быстро показать или скрыть боковую панель ScrapBook.

В целом ScrapBook весьма замечательный инструмент, несмотря на некоторые недостатки, о которых будет сказано ниже. По мнению автора настоящей статьи, ScrapBook вполне заслуживает оценки «пять с минусом» по пятибальной шкале, в чём вы можете убедиться, прочитав статью и попробовав поработать со ScrapBook’ом.

Теперь пройдёмся по основным возможностям ScrapBook.

Сохранение веб-содержимого

Вы можете сохранить текущую веб-страницу с помощью команды контекстного меню «Захватить веб-страницу». То же самое можно проделать, просто перетащив иконку из панели адреса на боковую панель ScrapBook. Это гораздо удобнее, чем использовать команду меню «Файл» - «Сохранить как...», а затем выбирать путь для сохранения.

Вы можете сохранить выделенный фрагмент веб-страницы с помощью команды контекстного меню «Захватить выделенное». То же самое можно проделать, просто перетащив выделенный фрагмент веб-страницы на боковую панель ScrapBook. Фрагмент сохраняется в виде отдельной веб-страницы.

Вы можете сохранить веб-страницу по ссылке с помощью команды контекстного меню «Захватить ссылку». То же самое можно проделать, просто перетащив ссылку на боковую панель ScrapBook. Эта возможность предназначена именно для веб-страниц по ссылкам. Пользуйтесь этим для ссылок на бинарные файлы (exe, zip и подобное) с осторожностью, так как вы можете получить «неясные» результаты — на боковой панели ScrapBook могут появиться элементы с пустыми заголовками (которые можно из-за этого вообще не заметить), и воспользоваться этими элементами будет затруднительно.

Вы можете сохранить рисунок веб-страницы, просто перетащив его на панель ScrapBook. Если рисунок является ссылкой, то ScrapBook будет работать с ним точно так же, как с текстовой ссылкой (сохранять страницу по ссылке). Если же рисунок ссылкой не является, при перетаскивании в панель ScrapBook он будет сохранён в виде отдельной веб-страницы, на которой нет ничего, кроме этого рисунка.

Вы можете сохранить фрейм с помощью команды контекстного меню «Захватить фрейм». Фрейм сохраняется в виде отдельной веб-страницы.

Вы можете сохранить открытый в браузере документ PDF, перетащив иконку из панели адреса на боковую панель ScrapBook. Документ PDF сохраняется в виде отдельной веб-страницы, содержимое которой ссылается с помощью мета-тега на собственно документ PDF. (Последнее заявление может оказаться интересным для тех, кто любит покопаться в html-коде; остальные же могут просто не волноваться — документ PDF физически будет сохранён на локальном жёстком диске вашего компьютера и доступен точно так же, как любая веб-станица, сохранённая в ScrapBook.) Точно таким же образом вы можете сохранить открытый в браузере ролик FLASH или документ XML.

Вы можете сохранить сразу все открытые в окне Firefox вкладки через меню "ScrapBook" - "Захватить все вкладки…". Каждая страница на каждой вкладке будет сохранена отдельно.

В момент сохранения различных видов веб-содержимого, описанных выше, вы можете вызвать диалог настроек, воспользовавшись командами «Захватить веб-страницу как…», «Захватить выделенное как..» и так далее:

В этом диалоге вы можете указать непосредственно перед сохранением, какие части содержимого веб-страницы нужно сохранять. Установленные здесь флажки сохраняются на будущее автоматически. Самый важный параметр — «Уровень глубины захвата ссылок». Используя этот параметр, вы можете выкачивать целые сайты, с произвольной глубиной вложенности страниц.

Есть некоторые тонкости. В Интернете существуют ссылки на файлы для скачивания (скажем, на zip-файлы), которые являются не «прямыми» ссылками, а ссылками на динамические веб-страницы, которые в свою очередь отдают указанные файлы. Например, ссылка на файл «test.zip» может использовать URL наподобие «attachment.php?item=1». При скачивании файла «вручную» (просто щелчком мыши), вы можете этого и не заметить — практически мгновенно появится самый обычный диалог сохранения файла. Однако, чтобы такой файл был автоматически скачан ScrapBook’ом при захвате этой страницы (например, при «глубоком» выкачивании сайта), необходимо будет поставить в вышеприведённом диалоге настроек флажок «Другие файлы» и указать расширение «php». При этом указанный «test.zip» будет сохранён на диск, к сожалению, как «attachment.php». Если же расширение «php» в нашем случае в настройках не указывать, файл «test.zip» вообще скачан не будет.

Если «Уровень глубины захвата ссылок» указан больше нуля, то после нажатия «Сохранить страницу» будет выдан диалог «Сохранения»:

Плагин выжидает несколько секунд перед тем, как начать скачивание, и вы можете приостановить процесс нажатием кнопки «Пауза», которая превратится после этого в кнопку «Старт», как вы и видите на рисунке выше. В данном диалоге отображён список ссылок, которые подлежат закачке. Вы можете снять или установить флажок напротив каждой ссылки, запретив или разрешив тем самым её скачивание. Нажатие кнопки «Фильтр» приведёт к появлению выпадающего меню, в котором вы можете:

Нажатие кнопки «Прервать» приведёт к отказу от скачивания всех ссылок.

Изначально в данном диалоге показываются ссылки только первого уровня. В процессе скачивания, если была задана глубина больше единицы, ссылок может стать больше. Вы можете в любой момент нажать кнопку «Пауза», чтобы заняться фильтрацией, или кнопку «Прервать», чтобы остановиться на том, что уже скачано. Плагин выжидает несколько секунд перед скачиванием каждой ссылки.

Вы можете захватить заново скачанную ранее веб-страницу с помощью команды контекстного меню этой страницы на панели ScrapBook: «Инструменты» - «Захватить снова…». То же самое действие можно выполнить, если открыть скачанную веб-страницу, а затем воспользоваться иконкой ScrapBook в строке состояния браузера в правом нижнем углу. При нажатии на эту иконку появится выпадающее меню, в котором можно выбрать команду «Произвести сохранение страницы снова…». При этом будет выдан диалог настроек, в котором можно изменить любые параметры сохранения: например, задать другой «Уровень глубины захвата ссылок». Сохранённая ранее веб-страница будет полностью перезаписана.

Вы можете поместить текущую веб-страницу в панель ScrapBook как закладку, не скачивая её. Для этого вызовите команду контекстного меню этой веб-страницы «Добавить в закладки ScrapBook». Такая веб-страница в панели ScrapBook будет отображена зелёным цветом. В дальнейшем вы можете использовать команду «Инструменты» - «Захватить снова…», чтобы сохранить эту веб-страницу уже по-настоящему.

Для версий ScrapBook до 1.3.3.7: если вы сохраняете веб-страницу с «Уровнем глубины захвата ссылок» больше нуля, то ScrapBook автоматически создаёт «карту сайта». Такая карта сайта создаётся для каждой сохранённой веб-страницы отдельно. Чтобы просмотреть карту сайта, откройте скачанную веб-страницу, а затем воспользуйтесь иконкой ScrapBook в строке состояния браузера в правом нижнем углу. При нажатии на эту иконку появится выпадающее меню, в котором можно выбрать команду «Показать карту сохранённого веб-сайта». В версии 1.3.3.7 такую карту сайта убрали, мотивируя это ограничениями параметров безопасности Firefox третьей версии. Возможно, в будущих версиях, она появится снова. По мнению автора настоящей статьи, не существует действительно веских причин убирать этот функционал из плагина.

Через меню «Инструменты» - «Сохранение нескольких URL» панели ScrapBook вы можете вызвать окно «Сохранение нескольких URL», в котором можно задать список URL для захвата. Здесь можно:

Организация скачанного содержимого

Вы можете организовать сохранённые веб-страницы в панели ScrapBook различными способами: у вас есть дерево, подобное дереву закладок; вы можете сортировать элементы, перетаскивая их, создавать разделители, создавать папки, помещать в них элементы и так далее.

Нажав на кнопку «Список» на панели ScrapBook, вы можете получить следующий вид:

Появляется панель списка, расположенная ниже основного дерева, в которой отображается содержимое текущей папки дерева.

Через меню «Инструменты» - «Управление каталогами...» панели ScrapBook вы можете вызвать окно «Управление каталогами», в котором можно реорганизовать дерево сохранённых веб-страниц различными способами. В принципе, все возможности реорганизации доступны и в панели ScrapBook, но кому-то может показаться удобнее делать это в отдельном окне.

Через меню «Инструменты» - «Объединение веб-страниц» панели ScrapBook вы можете вызвать мастер объединения нескольких сохранённых веб-страниц в одну. Результирующая страница может быть сохранена в любом месте дерева панели ScrapBook, а исходные страницы по желанию оставлены в неприкосновенности.

Через меню «Инструменты» - «Импорт / Экспорт веб-альбомов» панели ScrapBook вы можете вызвать мастер импорта-экспорта содержимого ScrapBook. При запуске мастера нужно выбрать каталог, с которым будет обмениваться данными ScrapBook. Далее в открывшемся окне «Управление каталогами» можно перетаскивать элементы между деревом ScrapBook и выбранным каталогом. Данные операции перетаскивания фактически и будут импортом-экспортом содержимого. Возможность экспорта-импорта может пригодиться для сохранения данных на съёмный носитель, объединения и переноса нескольких коллекций ScrapBook между компьютерами и так далее.

Через меню «Инструменты» - «Сортировка дерева веб-страниц» панели ScrapBook вы можете вызвать окно автоматической сортировки каталогов:

Через меню «Инструменты» - «Подсчёт занимаемого объёма» панели ScrapBook вы можете вызвать окно, в котором будет отображён размер каждой сохранённой страницы (и общий итог). Подсчёт может занять некоторое время.

Через меню «Инструменты» - «Сохранение дерева в виде HTML» панели ScrapBook вы можете создать неплохо оформленную «карту» всего хранилища ScrapBook; есть вариант с фреймом.

Вы можете указать в настройках флажок «Multi-ScrapBook». Это означает использование нескольких хранилищ ScrapBook с возможностью быстрого переключения между ними. Чтобы установить флажок «Multi-ScrapBook», откройте меню панели ScrapBook «Инструменты» - «Настройки расширения...» и перейдите на вкладку «Организация». Здесь вы можете указать либо конкретный каталог хранилища ScrapBook, либо флажок «Multi-ScrapBook».

Если флажок «Multi-ScrapBook» был установлен в настройках, на панели ScrapBook вы получите специальную кнопку «Multi-ScrapBook», по нажатию на которую будет выдаваться выпадающее меню. Пункт «Организовать...» этого меню вызывает диалог, в котором можно задать сколько угодно каталогов хранилищ ScrapBook. По мере добавления каталогов хранилищ выпадающее меню по кнопке «Multi-ScrapBook» будет пополняться новыми пунктами, между которыми впоследствии можно быстро переключаться.

Вы можете создавать текстовые заметки, используя команду «Создать заметку» контекстного меню панели ScrapBook. Такие заметки будут сохранены как отдельные веб-страницы и присутствовать в дереве панели ScrapBook как самостоятельные элементы.

Используя команду «Свойства» контекстного меню панели ScrapBook, для любой сохранённой веб-страницы в любой момент вы можете просматривать дату её сохранения, занимаемый размер и количество файлов, просматривать и редактировать её название, исходный URL, комментарий, изменять её значок в дереве панели. При установке флажка «Выделить страницу в веб-альбоме» элемент дерева отображается жирным шрифтом.

Редактирование сохранённых страниц

Откройте скачанную веб-страницу из панели ScrapBook, а затем воспользуйтесь иконкой ScrapBook в строке состояния браузера в правом нижнем углу. При нажатии на эту иконку появится выпадающее меню, в котором можно выбрать команду «Панель редактирования ScrapBook». На панели редактирования можно:

Специальной кнопкой на панели редактирования можно сохранить сделанные изменения. Также есть кнопка для команды «Undo» (откат последнего действия). И наконец, кнопка «<<» позволяет быстро найти открытый документ в дереве на панели ScrapBook.

Когда скачанная веб-страница открыта, можно воспользоваться иконкой ScrapBook в строке состояния браузера в правом нижнем углу. При нажатии на эту иконку появится выпадающее меню, в котором можно выбрать команду «Показывать индикаторы ссылок». Эта команда отмечает специальным маркером все ссылки документа, которые ведут на локальные веб-страницы, то есть сохранённые ScrapBook’ом в результате захвата с «Уровнем глубины захвата ссылок» больше нуля. Это очень удобно, так как явно показывает ссылки, при переходе по которым не будет обращения к Интернет.

Вы можете отредактировать веб-страницу и перед её захватом. Когда веб-страница по какому-то URL открыта, воспользуйтесь иконкой ScrapBook в строке состояния браузера в правом нижнем углу. При нажатии на эту иконку появится выпадающее меню, в котором можно выбрать команду «Редактирование перед сохранением».

Средства поиска

В верхней части панели ScrapBook есть поле с выпадающим списком, которое предоставляет функционал поиска по сохранённым веб-страницам несколькими способами. Чтобы указать опции для поиска, воспользуйтесь меню, которое появляется при щелчке по изображению лупы в левой части поля:

Кроме того, можно указать опции для поиска, просто напечатав в поле одну из нижеперечисленных букв:

Что означает поиск по заголовку, комментарию и URL — понятно из этих названий. Опция поиска по «ID (Время)» означает поиск по идентификатору сохранённой страницы вида «20080701172944», где слева направо перечислены год, месяц, день, час, минута и секунда. Вы можете узнать, какой идентификатор имеет любая сохранённая страница, открыв диалог её свойств через контекстное меню панели ScrapBook.

Полнотекстовый поиск означает поиск в тексте всех сохранённых страниц. Чтобы ускорить полнотекстовый поиск, ScrapBook каждые пять дней автоматически формирует специальный файл кэша. Вы можете обновить файл кэша вручную, через выпадающее меню «Инструменты» - «Обновить кэш для полнотекстового поиска», которое появляется при щелчке по изображению лупы в левой части поля поиска.

В том же меню можно включить поиск с помощью регулярных выражений, пункт «Использовать шаблоны (RegExp)». Если эта опция выключена, полнотекстовый поиск работает следующим образом:

В результатах поиска каждое найденное слово будет особым образом подсвечено.

Как это хранится

Откройте меню панели ScrapBook «Инструменты» - «Настройки расширения...» и перейдите на вкладку «Организация». Здесь вы можете указать либо конкретный каталог хранилища ScrapBook, либо флажок «Multi-ScrapBook», о котором было рассказано выше. По умолчанию ScrapBook хранит свои данные в каталоге профиля пользователя операционной системы.

В любой момент на панели ScrapBook вы можете открыть каталог хранилища ScrapBook через меню «Инструменты» - «Открыть каталог ScrapBook». Кроме того, вы можете открыть каталог конкретной сохранённой веб-страницы. Для этого в контекстном меню соответствующего элемента дерева панели ScrapBook выберите пункт «Инструменты» - «Файлы веб-страницы».

Замеченные неприятности

Для версий ScrapBook до 1.3.3.7: карта сайта сохранённой веб-страницы хранится в файле sitemap.xml в каталоге этой веб-страницы. Файл sitemap.xsl в каталоге ScrapBook содержит таблицу стилей для отображения всех карт сайтов. Если вы немного знакомы с языком XML, вы можете отредактировать эту таблицу стилей на свой вкус. В версии 1.3.3.7 карту сайта убрали. Вышеупомянутые файлы карты сайта всё ещё создаются, но использовать их напрямую нельзя. При открытии файла sitemap.xml Firefox третьей версии отказывается применять таблицу стилей sitemap.xsl, которая объявлена в этом файле следующим образом:

<?xml-stylesheet href="../../sitemap.xsl" type="text/xsl" media="all"?>

Чтобы файл sitemap.xml открылся в Firefox, можно заменить эту строку на следующую:

<?xml-stylesheet href="sitemap.xsl" type="text/xsl" media="all"?>

При этом необходимо скопировать таблицу стилей sitemap.xsl в тот же каталог, где находится сам файл sitemap.xml.

Команда «Захватить ссылку» работает не всегда адекватно. В принципе, эта команда предназначена для ссылок на веб-страницы, и в этой ситуации она работает правильно. Однако, если вы «захватываете» ссылку на бинарный файл (например, exe или zip), то могут случиться мелкие неприятности.

Закачка zip-файла при этом произойдёт, но при обращении к закачанной «странице» из панели ScrapBook будет выдан диалог с предложением выбрать программу для открытия файла или сохранить файл на диск. Если же вы захватили таким образом exe-файл, может получиться совсем неудобно: заголовок закачанной «страницы» в панели ScrapBook может оказаться пустым, а сам файл будет физически сохранён на диск под именем «untitled» без расширения (вы можете убедиться в этом, просмотрев каталог ScrapBook на вашем диске). При обращении к такой закачанной «странице» из панели ScrapBook будет также выдан диалог с предложением выбрать программу для открытия файла или пересохранить файл на диск.

В общем, такое поведение команды «Захватить ссылку» вполне объяснимо, и возможно, ошибка разработчиков ScrapBook здесь состоит в основном в том, что при таком неловком «захвате» было бы хорошо выдавать соответствующее предупреждение и не коверкать имя захваченного файла.

Если вы захватили zip-файл не по прямой ссылке, а например, по ссылке на php-скрипт с параметром (таким способом часто выкладываются так называемые «вложения» в постах на форумах), сохранённый файл будет иметь расширение «php» вместо «zip», а при обращении к этой закачке из панели ScrapBook будет выдаваться всё тот же диалог выбора программы для открытия файла или сохранения. Эту ситуацию мы уже описали раньше, когда в разделе «Сохранение веб-содержимого» говорили о динамических веб-страницах, которые отдают указанные файлы для скачивания. Коверканье расширений файлов при их сохранении, конечно, ошибка не особо приятная, особенно при автоматическом выкачивании сайтов.

Дополнения к ScrapBook

Для ScrapBook существует ряд дополнений, которые вы можете установить отдельно. Официальная страничка дополнений находится по адресу: http://amb.vis.ne.jp/mozilla/scrapbook/addons.php?lang=en.

Поскольку обо всём на свете в одной статье не расскажешь, остановимся лишь на одном дополнении для примера — ScrapIndexer. Домашняя страница этого дополнения, откуда его можно бесплатно скачать, находится здесь: http://mybyways.net/Documents/scrapindexer.htm. Это дополнение позволяет сохранить содержимое коллекции ScrapBook в виде одного CHM-файла. Формат CHM — это стандартный файл справки Windows, который откроется двойным щелчком практически на любой системе, без установки дополнительного программного обеспечения. Иметь дело с одним файлом часто гораздо удобнее, чем с горой файлов во вложенных папках. Кроме того, CHM — это сжатый файл (архив) и занимает ощутимо меньше места.

ScrapIndexer требует присутствия на компьютере .NET 2.0 и Microsoft HTML Help Workshop 1.3 (версия компилятора 4.74.8702).

ScrapIndexer имеет вполне обычный дистрибутив и устанавливается без каких-либо нюансов как отдельное приложение. ScrapIndexer работает в режиме мастера. После запуска вы увидите его первое окно:

На следующем шаге необходимо выбрать каталог данных ScrapBook. Этот каталог задаётся в настройках, в панели ScrapBook, через меню «Инструменты» - «Настройки расширения...» на вкладке «Организация». Вообще, конечно, это может и не быть именно каталог данных ScrapBook. Это может быть просто каталог, специально полученный в результате экспорта данных ScrapBook. На следующем шаге вы увидите окно настроек:

Флажок «Generate index.htm» позволяет создать титульный html-файл, в котором будут гиперссылки на каждый файл index.html в каждой экспортируемой подпапке. Флажок «Generate thumbinails in .\images folder» обеспечивает создание небольшого эскиза каждой экспортируемой веб-страницы.

Флажок «Temporarily disable Script Debugger» временно отключает отладчик сценариев, если он разрешён в Internet Explorer. Во время генерации эскизов могут появиться сообщения об ошибках, которые лучше подавить.

В качестве дополнительной возможности, для создания титульного xml-файла и его xsl-таблицы стилей вы можете установить флажки «Generate index.xml» и «Copy template to index.xsl». В результате в браузерах Internet Explorer и Firefox можно будет отобразить титульный xml-файл в том же самом формате, что и титульный html-файл.

Флажок «Generate HTML Help Workshop project files» позволяет создать файлы CHM-проекта для их последующей компиляции в CHM-файл (это сработает, только если Microsoft HTML Help Workshop установлен на вашем компьютере).

Выбор шаблонов в поле «Template»:

На следующем шаге вы увидите окно результата:

Из этого окна, пользуясь полученными ссылками, вы можете открыть для просмотра сгенерированные титульные файлы, каталог данных ScrapBook (все файлы генерируются в нём), файл проекта HTML Help Workshop для его редактирования и последующей компиляции, или сразу запустить компиляцию CHM-файла.

Теперь о замеченных неприятностях. К сожалению, ScrapIndexer некорректно работает с русским языком: в файле оглавления CHM-проекта вы можете получить «вопросики». Соответственно, лучше всего проверять файлы CHM-проекта и править их вручную в HTML Help Workshop, непосредственно после создания этих файлов.

Людоговский Александр, 03.07.2008г.

Статья была написана для журнала "Компьютер Price": часть 1 и часть 2.

Перейти на главную страничку сайта (список статей, файлы для скачивания)

© 2007 http://www.script-coding.com При любом использовании материалов сайта обязательна ссылка на него как на источник информации, а также сохранение целостности и авторства материалов.