Внешний вид сайта:

Отладка заданий

Полезность страницы:
15/100

Для включения режима отладки вам надо перейти в глобальные настройки компонента и на вкладке "Основные настройки" установить влажок "Включить режим отладки". После выполнения задания теперь вы будете видеть страницу с отладочной информацией. Вот пример вывода отладочной информации:

parser-48

На данной картинке рамками отмечены 8 основных секций, которые будут нам интересны. Давайте разберем по пунктам, что есть что:

  1. Показано число найденных публикаций, доступных для загрузки. Это чистый список с вычетом всех уже полученных публикаций и дублей ссылок. Данная цифра отображает число реально доступных новых публикаций. В случае, если парсеру не удалось найти ссылки на подходящие для парсинга страницы, что может быть результатом неверно настроенного задания или отсутствием новых публикаций на сайте-источнике, вы увидите такую картину:
    parser-47
  2. Получение заголовка - в графе "Заголовок получен:" вы увидите реально полученный заголовок. Если его там нет, значит заголокок получить не удалось, что будет указано в итоговой секции(секция 7) после строки "Проверяем все ли получено ...". Причиной подобной ошибки может быть только неверное заполнение вкладки "Заголовок" текущего задания. Воспользуйтесь тестером стратегий и пересмотрите алгоритм поиска заголовка.
  3. Получаем краткое описание - здесь описан процесс получения анонса статьи. В строке "Тизер получен:" вы можете видеть полученный анонс статьи. Хочется обратить ваше внимание на то, что данное поле может оказаться пустым. Парсер попытается создать анонс статьи из полного текста полученной статьи следуя правилу, указанному в глобальных настройках компонента. В случае неудачи вы увидите сообщение о неудачной попытке в секции 7 после строки "Проверяем все ли получено". Если вы настраивали получение анонса статьи в форме добавления задания, но анонс не был получен, а был сгенерирован парсером из полного текста статьи, еще раз проверьте настройки полей, отвечающих за его получение.
  4. Получение текста статьи - результат вы сможете увидеть в строке "Текст получен:". Будет выведен полный текст статьи. Если текст отсутствует, то это однозаначно говорит о том, что вы неверно настроили задание. Откройте вкладку "Текст статьи" текущего задания и используя тестер стратегий исправьте ошибку.
  5. Получение изображения - в данном поле вы должны увидеть ссылки на загруженное изображение в формате YAML. Если ссылки отсутствуют это может говорить об одном из двух - либо вы неверно настроили получение изображения, либо изображение к текущей статье действительно отсутствует на сайте-источнике. Пройдите по ссылке, указанной в начале лога и проверьте какой из двух вариантов развития событий имеет место быть. Если изображение в статье на сайте-источнике присутствует, то с помощью тестера стратегий исправьте ошибку в задании. Если в настройках задания вы ставили галочку "Иллюстрации обязательны", то статья без изображения будет отбракована парсером.
  6. В этой секции выводится информация, касающаяся обработки текста статьи(замена тегов, удаление мусора и т.д.) Данная секция носит чисто информационный характер и не влияет на успешность выполнения задания. Неверная настройка данных опций может привести к неправильному форматированию контента, но никак не влияет на успешность его получения.
  7. Финальный штрих - проверка целостности полученного контента, его сохранение и публикация. Если в ходе проверки целостности будет обнаружена ошибка, то сообщение о том, что именно пошло не так вы увидите в этой секции после строки "Проверяем все ли получено ...".
  8. Это итоговый отчет о проделанной работе. На картинке выше показан лог выполнения задания, в настройках которого установлен лимит на получение статей - 1 статья. В случае, если вы получаете за один запуск задания несколько статей, то секции 1-7 будут выведены для каждой получаемой статьи, а секция 8 будет итогом выполнения и выведена в самом конце списка.

На что хотелось бы обратить внимание:

  1. Сообщение о том, что не удалось получить текст статьи и как следствие отказ парсера загружать ее при том, что текст статьи найден и вы видите его в логе может быть следствием того, что количество символов в тексте статьи меньше указанного вами в глобальных настройках компонента.
  2. Парсер в любом случае пытается получить количество статей, указанных вами в настройках задания. Если статья по каким-либо причинам была отбракована парсером, то парсер берет следующую ссылку из списка доступных статей и пытается получить статью по ней.

Дополнить страницу Вы можете помочь другим людям дополнив эту страницу вашими знаниями по данному вопросу!
11:26

Комментарии

Нет комментариев. Ваш будет первым!