Внешний вид сайта:

Вкладка "Тестер стратегий"

Полезность страницы:
0/100

Вкладка "Тестер стратегий" предназначена для тестирования стратегий поиска. Введя параметры в форму на этой странице вы сразу же сможете увидеть, что именно вернет вам парсер. Тестер поделен на 2 части - поиск ссылок и поиск контента.

  • Поиск ссылок позволяет обрабатывать стартовые страницы и делать правильные выборки ссылок для парсинга.
  • Поиск контента позволяет проверить правильно ли вы задали парметры для получения контента одного из полей.

Введя адрес страницы-источника и параметры поиска вы увидите какой контент будет получен парсером и сможете скорректировать параметры чтобы добиться нужного результата. Выглядит тестер стратегий так:

parser-10

Обратите внимание, что тестер стратегий не использует функции обработки текста и выводит текст в исходном виде - вместе с HTML-кодом исходной страницы, необработанными картинками, ссылками и т.д. Одним словом он показывает вам всю картину без прикрас чтобы вы могли максимально быстро определить в чем конкретно допустили неточность если таковая имела место.

Поля формы

URL страницы - обязательное поле, указывающее адрес страницы, обработка которой предполагается вами в тестируемом задании. Для поиска ссылок вы указываете страницу, на которой хотите собрать все ссылки на нужный вам контент, на странице поиска контента - адрес страницы, содержащей статью.

Тег искомого элемента - актуально для поиска контента в коротких и уникальных тегах. Например, если на странице всего один заголовок H2, то для его получения достаточно ввести в это поле "h2" и все содержимое между тегами <h2> и </h2> будет возвращено в качестве результата. Или, допустим, нам нужно получить содержимое тега<article>Текст статьи</article>. Не применяйте этот параметр поиска для неуникальных элементов(p, div, span и т.д. коих на странице великое множество). Перед использованием убедитесь, что искомый элемент в тексте один. В противном случае парсер вернет содержимое первого найденного на странице указанного вами тега.

CSS-класс искомого элемента - работает аналогично предыдущему полю и возвращает содержимое элемента с указанным классом CSS. Не используется для неуникальных элементов и элементов с дочерними элементами того же типа.

ID искомого элемента - работает аналогично двум предыдущим полям, но использует для поиска идентификатор.

Важно! Одновременно в поиске можно использовать только одно из вышеперечисленных полей - Тег, Класс или ID.

Начало искомого текста и Конец искомого текста - пожалуй два наиболее часто используемых и легко настраиваемых поля. Используются только в паре - выбирают весь контент между указанными фрагментами текста/кода. Можно использовать как для поиска коротких значений, так и для поисков больших кусков текста/кода.

Помимо функции поиска контента данные поля также могут выполнять функцию отсечения. Т.е. данные поля позволяют нам выбрать фрагмент текста/кода в котором мы хотим искать интересующее нас значение при помощи полей Тег, ID, Класс. Например, если мы заполним поля CSS-класс искомого элемента, Начало искомого текста и Конец искомого текста, то будет произведен поиск содержимого тега с указанным нами CSS-классом в участке странице, ограниченном полями Начало искомого текста и Конец искомого текста.

Просмотр результатов теста

После нажатия кнопки сохранить страница будет перезагружена и в нижней ее части появится интересующая вас информация. Результат будет возвращен в виде HTML-кода и реального отображения(для ссылок в виде массива). Вы сможете увидеть тот ли фрагмент кода, который вы ожидали получить был получен и  внешне оценить результат.

parser-11

Особенности поиска изображений

При поиске изображений важно обратить внимание на одну особенность - вам нужно составить условие поиска таким образом, чтобы результатом работы тестера было выражение, полность содержащее в себе тег <img src=''..." ...>. Только в этом случае парсер сможет успешно обработать изображение и загрузить его к вам на сервер. Результаты типа scr="..." alt="...", не содержащие самого тега <img> обработаны не будут.

parser-12

При этом не обязательно, чтобы результатом теста был тег <img> в чистом виде. Это может быть произвольный фрагмент HTML-кода, включающий в себя данный тег <img>.Например, правильный результат может выглядеть так:

parser-13

или как-нибудь еще. Единственным условием является наличие полного тега <img .....> в ответе тестера. Если таковой присутствует, то все сделано правильно.

Дополнить страницу Вы можете помочь другим людям дополнив эту страницу вашими знаниями по данному вопросу!
17:58

Комментарии

Нет комментариев. Ваш будет первым!