Универсальный парсер контента(текст+картинки и др.)



Просто подстраивается к любому вебсайту!Совершенно простой и логичный интерфейс! Легкость в освоении – очень хорошая!

Возможности: полный граббинг сайта, граббинг только нужной части сайта.

СКАЧАТЬ

 

Инструкция по использованию парсера контента.

Возможности: полный граббинг сайта, граббинг только нужной части сайта.
Перед началом работы обязательно загляните в настройки! Особенно обратите внимание на кодировку.

полный граббинг сайта

1. Выбираем сайт – жертву. Для примера возьму сайт http://sptcars.ru/. Да не обидится на меня его владелец.
2. Идем в «Шаг 1», вводим сайт и выбираем куда будут сохраняться ссылки.


3. Теперь нужно составить шаблон страниц которые нас интересуют. Т.е. тех на которых есть контент. Страницы меток, категорий нас не интересуют. Поэтому нужно открыть какую-нибудь страницу с контентом. Например эту http://sptcars.ru/?p=92 и просмотреть ее исходный html код. Задача – определить части кода которые присущи только таким страницам. В качестве разделителя тегов используется знак «|». Теги не обязательно брать целиком. Например на странице есть такое: «<div class="post" id="post-92">». Ясно что такая конструкция присуща странице с контентом. Но «post-92 встречается не на всех страницах. Вполне можно использовать только эту часть: ««<div class="post" id="»
В итоге я составил такой шаблон:
<div id="content" class="widecolumn">|<div class="entry single">|<p class="postmetadata alt">
Важно! <div id="content" class="widecolumn">|<div class="entry single">|<p class="postmetadata alt"> не одно и тоже с
<div class="entry single">|<div id="content" class="widecolumn">|<p class="postmetadata alt"> (я переставил 1 и 2 часть местами) Т.е. проверяется соответствие шаблону не только по наличию заданных тегов в коде страницы, но и по порядку их следования в html коде.

4. Забиваем составленный шаблон в соответствующее поле, забиваем страницу для проверки и жмем кнопку «Проверить шаблон!». Если шаблон соответствует странице, то в окне сообщений вы увидите надпись «соответствие шаблону!». В противном случае шаблон составлен неправильно и его надо переделать.
5. Итак мы получили шаблон страницы.  Теперь можно нажимать зеленую кнопку
«1. Определить url’ы». Программа начнет работу по определению подходящих ссылок на этом сайте. По окончании работы вы увидите сообщение:


Это значит, что можно приступать к следующему этапу.
6. Идем в закладку «Шаг 2»


Кнопкой «обзор» выбираем файл в котором у нас сохранены ссылки. Формат вывода – для WPT,  zebrum lite или обычный мой:) и в какой файл все это сохранять.

7. Далее нужно составить шаблон для извлечения контента. Принцип его построения аналогичен шаблону страницы, но с добавлением тегов [title] и [text]. Заголовок и текст статьи соответственно. Важно правильно подобрать теги между которыми title и text находятся. Для сайта - примера шаблон такой:
<div id="content" class="widecolumn">|[title]|<div class="entry single">|[text]|<p class="postmetadata alt">
Важно! Если стоит конструкция типа <tag1><tag2>Title</tag3></tag4>, то не обязательно указывать в шаблоне <tag2>|[title]|</tag3>.  Можно сделать так: <tag1>|[title]|</tag4> т.к. все теги при выделении текста и титла уничтожаются.
8. Когда шаблон готов его нужно проверить. Заполняем нужные поля и жмем «Проверить шаблон!». В окне сообщений вы увидите результат – первая строчка – титл, остальное – тело статьи. Если шаблон составлен правильно, то ничего лишнего там быть не должно. Если вылезают крякозябры – зайдите в настройки и поменяйте кодировку сайта.
9. Итак шаблон готов, все настроено. Нажимаем «Сохранить все страницы сайта по шаблону». Программа притворится, что она зависла, но на самом деле она вовсю трудится. Когда работа будет закончена – появится сообщение об этом. В выходном файле находится подготовленный контент. Ура.

граббинг только нужной части сайта

Эта функция нужна если вы не хотите перебирать весь сайт, а скопировать только те статьи которые находятся в определенной категории.
Для этого идем в «Шаг 1.1» вводим урл страницы с которой будут взяты все линки. В остальном все аналогично предыдущему пункту. Т.е. сначала получаем файл с списком нужных страниц, а затем в «Шаг 2» их парсим.

 


Откуда Вы узнали о нашем сайте?