Вкладка "Опции"
Вкладка "Опции" содержит все основные настройки парсера. Эти настройки влияют на выполнение всех заданий и форматирование получаемого контента. Любое изменение этих настроек немедленно отразится на всех без исключения заданиях. Для удобства настройки парсера поделены на три категории - "Основные настройки", "Настройки парсинга" и "Настройки публикации". Давайте рассмотрим каждую из них детально.
Основные настройки
Вкладка "Основные настройки" содержит настройки, связанные с интерфейсом самого парсера и его поведением. Выглядит эта вкладка так:
Минимальная длина текста, символов - здесь вы можете указать, какова минимальная длина статьи, которая должна быть получена парсером. Если количество символов в тексте, полученном со страницы-источника будет меньше указанного вами значения, то статья не будет получена. Вместо нее парсер получит новую.
Редактор HTML - при редактировании полученных статей в интерфейсе парсера, окно редактирования текста будет обернуто указанным вами редактором. Скрипт парсера автоматически определяет все установленные на сайте редакторы и предлагает полный их список.
Сброс индексов БД - данная опция работает при нажатии кнопки "Удалить все" на странице просмотра полученного контента. При выборе этой опции будет сброшена нумерация строк(AUTO_INCREMENT таблицы в БД). Если вы хотите, чтобы после очистки таблицы нумерация начиналась с 1, а не с последнего ID, добавленного в таблицу, выберите эту опцию.
Удалять картинки из текста - данная опция отвечает за удаление с сервера картинок, которые были загружены при получении контента. При удалении статьи все картинки будут удалены. Не затрагивает картинки, расположенные в статьях, которые уже были опубликованы на сайте. Независимо от того, находится ли удаляемая статья во вкладке "Новый контент" или вкладке "Опубликованный", изображения будут удалены только для тех статей, которые не публиковались. Безопасная опция
Удалять все картинки - при выборе этой опции, независимо от статуса публикации, все изображения, связанные со статьей будут удалены с сервера. При этом если вы удалили статью, опубликованную на сайте из интерфейса парсера, опубликованная на сайте статья останется без нужных изображений, используйте эту опцию обдуманно и с осторожностью. Опасная опция
Включить режим отладки - при выборе этой опции в процессе запуска задания в ручном режиме вы сможете увидеть всю отладочную информацию, касающуюся выполнения этого задания. Включение режима отладки никак не влияет на работоспособность авторежима и ручного выполнения. Единственная разница - вместо перенаправления на страницу с полученным контентом вы будете перенаправлены на страницу с отладочной информацией. Выглядит она примерно так:
На странице показан весь ход выполнения задания по пунктам с указанием времени, затраченного на их выполнение.
Настройки парсинга
Вкладка "Настройки парсинга" содержит ряд настроек, которые могут оказаться вам полезными в ходе составления заданий. Выглядит эта вкладка так:
Сохранять исходный HTML-код страниц - Если вам для каких-либо собственных целей хотелось бы помимо готового контента получать также исходный HTML-код страниц(сверка, поиск ошибок или другие ваши нужды) просто включите эту опцию. Код будет помещен в таблицу БД и доступен для последующих манипуляций.
Длина краткого описания - в случае, если содержимое краткого описания и полного текста статьи дублируют друг друга вам нет необходимости в настройках задания настраивать получение краткого описания, вы можете просто указать, какой длины фрагмент текста из полного текста статьи вы хотите видеть в качастве краткого описания. Краткое описание будет автоматически создано из полного текста статьи и сокращено до указанного вами количества символов.
Ссылки через редирект - для предотвращения нарастания большого числа ссылок с сайта вы можете добавить ко всем ссылкам в тексте статьи конструкцию, которая ведет на страницу редиректа. При выборе этой опции ко всем URL-ам ссылок будет добавлена конструкция "/redirect?url=" и все ссылки примут вид типа "/redirect?url=адрес ссылки". Обрабатывает только ссылки в тексте стать не затрагивая изображения. Проблему внешних ссылок на картинки парсер решает загрузкой изображений на ваш сайт.
Ссылка контроллера редиректа - если адрес вашего контроллера редиректа или способ передачи URL в контроллер отличаются от "/redirect?url=" вы можете указать их в этом поле.
Настройки публикации
Вкладка "Настройки публикации" содержит настройки, отвечающие за очистку, форматирование и публикацию контента на сайте. Внешне вкладка выглядит так:
Очищать весь полученный контент от HTML-разметки - при включении данной опции получаемый контент будет очищен от скриптов, инородных вкраплений и HTML-кода. Теги которые нужно оставить нетронутыми вы можете задать в поле ниже.
Введите разрешенные HTML-теги - узазанные здесь теги не будут удалены в ходе очистки текста. При перечислении тегов используйте разделитель "|", а сами теги указывайте без "<" и ">". Например: "p|h1|h2|i". Данные правила применяются ко всем без исключения заданиям.
Не применять очистку от HTML-тегов к следующим полям - данная опция позволяет исключить нужные вам поля от удаления HTML и скриптов. Просто перечислите через запятую те поля, которые не должны обрабатываться парсером с целью очистки.
Список публикаторов - при публикации на сайте статьи будут публиковаться от имени пользователей, чьи ID указаны в этом поле. Просто перечислите ID ваших "пользователей-публикаторов" через запятую. Выбор пользователя, от имени которого будет опубликована статья будет выбрано случайным образом из введенного вами списка пользователей.
Публиковать контент сразу после получения - данная опция включает/выключает автоматическую публикацию контента на сайте. При выключенной опции весь контент после получения будет помещен в раздел "Новый контент" и будет ожидать ваших действий. При включенной опции весь контент будет незамедлительно опубликован на сайте сразу же после получения. В интерфейсе парсера данный контент будет перемещен в "Опубликованный".
Комментарии