Основные принципы работы компонента
Полезность страницы:
0/100
Копонент "Парсер контента" это своеобразный конвейер, который выполняет множество операций, начиная от загрузки стартового адреса и получения содержимого стартовой страницы до обхода всех дочерних страниц с целью получения контента и его последующей обработкой. Примерная схема работы парсера выглядит так:
- Парсер загружает указанную вами страницу и ищет на ней ссылки, соответствующие указанным вами параметрам. В ходе этой операции будет получен полный список ссылок из указанного вами фрагмента текста, из него будут выкинуты ссылки-дубли, ссылки на страницы, которые уже были загружены ранее и ссылки не соответствующие маске поиска. Вы можете использовать как белый список для ссылок, так и стоп-слова.
- Далее следует поэтапный обход полученных ссылок. При правильно настроенной маске все ссылки должны вести на страницы с нужным вам контентом. На этом этапе происходит загрузка статей и выполнение дочерних действий - загрузка изображений на ваш сервер, замена тегов и т.д.
- Следующим этапом является проверка целостности полученного контента. В ходе нее проверяется, что все необходимые части контента(заголовок, изображение, полный текст) были действительно получены и успешно обработаны. Также проверяется соответствие контента правилам публикации, заданным вами в настройках. Например, если вы не захотели сохранять статьи, с количеством символов ниже определенного, или изображение-превью не было найдено, а вы указали в настройках, что оно необходимо, то такие статьи будут забракованы и вместо них парсер получит новые.
- И последним шагом является публикация контента. Если в настройках парсера выбрана автоматическая публикация полученного контента на сайте, то все полученные статьи будут немедленно опубликованы, а сам контент в интерфейсе парсера перемещен в "Опубликованные". В ходе публикации авторами статей будут назначены пользователи, выбранные вами в качестве публикаторов.
Такая схема работы парсера позволяет использовать его в автоматическом режиме. Жесткая проверка перед публикацией дает практически 100% гарантию того, что статьи, полученные с ошибками(если таковые имели место быть) не будут сохранены и опубликованы. Вместо неудачно загруженного контента парсер попробует загрузить новый.
Комментарии