Сбор контента является, пожалуй, самой популярной задачей у сателлитчиков. Я сателлитами не занимаюсь, но передо мной также недавно встала задача сбора большого количества контента по списку ключевых слов. Реализовать эту задачу мне как обычно помог парсер Datacol. С Datacol я познакомилась еще года 2 назад, когда занималась поиском квартиры и мне нужно было максимально автоматизировать этот процесс. С тех пор этот парсер стал моим незаменимым помощником для сбора больших объемов данных из интернета. Граббер контента с сайта уже встроен в базовый функционал парсера Datacol. В этот раз мне не нужно было ни уникализировать собранный контент, ни загружать изображения, поэтому со сбором более чем 500 статей я справилась за 1-2 минуты. Правда впечатляет?
Демонстрация работы парсера контента
Открываю настройку парсера контента по ключевым словам под названием content-by-keywords.par и ввожу список ключевых слов, по которым мне необходимо собирать контент, во вкладке Навигация -> Стартовые URL:
В стандартных настройках данного парсера указан экспорт в TXT файл. Этот формат меня вполне устраивает, поэтому настройки из вкладки Экспорт я оставляю неизменными:
Жму на кнопку Сохранить и выйти, после чего запускаю парсинг контента. Далее начинается сбор информации по моим ключевикам:
Парсер контента уже собрал более 500 результатов. Мне этого более чем достаточно, поэтому я останавливаю работу кампании:
После завершения работы парсера в папке Мои документы появляется файл content by keyword from Datacol5.txt. Открываю его и вижу результаты работы парсера:
Как видите, вам даже не нужно настраивать парсинг контента по ключевым словам, настройка уже полностью готова. Вам только останется прописать все необходимые ключевики и за считанные минуты парсер контента в режиме онлайн экспортирует всю необходимую информацию. Естественно, не на всех сайтах программа может правильно определить границы контента. Но минимум на 80% сайтов определение происходит достаточно корректно. А вы при этом экономите огромное количество времени и получите нужное количество тематического контента.
Тестирование парсера
У вас есть возможность скачать бесплатно парсер контента. Это поможет вам ознакомиться с возможностями программы и понять подходит ли она для выполнения ваших задач. Для этого вам необходимо скачать парсер контента, который реализован в рамках Datacol на их официальном сайте:
Через меня вы можете приобрести Datacol5 со скидкой 20%. Чтобы узнать о том, как получить скидку, перейдите по этой ссылке