Возможности компонента

Полезность страницы:

0/100

Компонент "Парсер контента" предназначен для получения контента с любого рода интернет-ресурсов, его обработки и публикации на сайте. В отличии от RSS-парсеров вы не ограничены списками RSS-лент, а можете получать контент с любых ресурсов. Парсер получает контент непосредственно из HTML-кода страниц сайта-источника.

Например, вы хотите на своем сайте публиковать новости из новостной ленты другого сайта или вас интересуют только определенные статьи. Вы создаете задание, указываете все необходимые параметры и парсер делает это вместо вас. Причем парсинг может работать в двух режимах - ручном и автоматическом(если у вас настроен CRON). Настроив несколько десятков источников вы можете получать до 500-1000 публикаций в сутки. Пример подобной работы парсера вы можете посмотреть на сайте ic-press.ru.

На практике это выглядит так - вы можете самостоятельно запускать созданное вами задание из панели упраления, или доверить его запуск cron-у, указав интервал времени, через которое данное задание необходимо выполнить. Результатом работы будет получение указанного вами в задании числа публикаций. Причем эти публикации могут быть опубликованы на cайте или отложены на модерацию и решение о публикации каждого конкретного материала вы можете принять самостоятельно.

Перед публикацией материала на сайте в ручном режиме вы можете просматривать и редактировать полученный контент, менять категорию для публикации и выполнять ряд стандартных действий. Этим пожалуй никого не удивишь. Однако есть ряд функций, которые парсер сделает за вас в автоматическом режиме. Вот некотрые из основных возможностей автоматической обработки текста:

Автоматическое создание превью

Парсер автоматически загрузит обложку статьи и создаст нужные превью изображений к статье. При удалении статьи в интерфейсе парсера данные изображения будут удалены с сервера.

Загрузка изображений из тела статьи

Если контент сайта-источника предполагает наличие картинок в теле статьи, вы можете приказать парсеру загружать картинки на ваш сервер. Для загрузки изображений используются стандартные средства системы, автоматически создаются указанные вами пресеты(micro, small, normal, big и т.д.). Таким образом вы можете выбрать только нужные вам пресеты изображений. При удалении статьи в интерфейсе парсера данные изображения будут удалены с сервера.

Замена тегов

Предположим, что структура контента на вашем сайте построена с использование тегов <p>...</p>, а контент, размещенный на сайте-источнике имеет верстку, основанную на тегах <div>...</div>. Прасер может автоматически заменять теги div на тег p, тем самым адаптируя контент источника под ваш сайт. Также вы можете заменять любые другие теги.

Замена аттрибутов

В ходе парсинга вам хотелось бы изменить внешний вид элементов или добавить интерактивности? Нет ничего проще - просто укажите, какие аттрибуты вы бы хотели добавить/заменить и это будет сделано автоматически в ходе получения статьи. Данная опция позволяет менять классы, ID, стили элементов на нужные вам. Например заменить курсив жирным текстом или добавить к картинкам на странице аттрибуты для Lightbox.

Удаление мусора

Если в тексте получаемой статьи присутствуют инородные вкрапления - рекламные вставки, теги разметки или ненужный вам текст вы можете указать это в настройках парсера и он удалит эти элементы сделав текст статьи чистым.

А также ...

Это краткий список возможностей, более подробное описание вы найдете на страницах этого руководства, посвященных конкретным темам. Полученный результат целиком и полностью зависит от точности настройки того или иного задания. На настройку парсинга с одного сайта вам может потребоваться 5 минут, на настройку другого - час. Это обусловлено разной структурой сайтов и правильностью HTML-верстки. Но, как показывает практика, в 99% случаев вы можете получить отличный результат не требующий правки и готовый к публикации. Парсер сделан для людей, не знающих, что такое регулярные выражения и прочие заумные вещи. Процесс настройки парсера сведен к минимуму и логически прост, поэтому думаю ни у кого не возникнет сложностей в его использовании..

Внимание: Мы старались сделать так, чтобы однажды настроив задание вы могли забыть про него раз и навсегда. Т.е. полученный контент полностью бы соответствовал всем выдвинутым вами требованиям. Однако мы не можем гарантировать, что инструментарий парсера позволит получить 100% правильный и валидный контент с абсолютно любого сайта. С 99% сайтов - да, но не с 100%. Это обусловлено целым рядом параметров - особенностями разметки, отсутствием структуры как таковой, нетрадициоными кодировками и прочими досадными мелочами. Однако, повторюсь - как показывает практика, доля таких сайтов не превышает 1% и если вам доведется столкнуться с такой ситуацией - это единичный случай.

Дополнить страницу Вы можете помочь другим людям дополнив эту страницу вашими знаниями по данному вопросу!

—

03.10.2016 14:35