Рально ли сделать свой парсер статей?

Статус
В этой теме нельзя размещать новые ответы.
В своё время задавался этим вопросом.
Цена разработки подобного продукта - 1к$ максимум.
Один из нулледовцев описал Для просмотра ссылки Войди или Зарегистрируйся, по которому надо работать, а закодить тут уже вопрос только за программистом.
 
За 1к$ наверное получится совсем сложный парсер, который будет подходить к разным сайтам.

Я же хочу написать простенький, который подходит только к одному сайту, т.е. для того, чтобы парсить статьи с другого сайта нужно будет переделывать шаблон html-страницы в парсере.
 
тогда алгоритм ещё проще:
1. собираешь все ссылки на категории статей.
2. по этим ссылкам собираешь ссылки на сами статьи
3. заходишь на страницу каждой статьи и выдираешь с помощью регулярных выражений заголовок статьи, содержание, если надо можно взять ещё категорию и что-то ещё. Для каждой статьи эти регулярные выражения будут одинаковые.

 
Елки-палки и здесь все на английском, зря я в школе его не учил :)
 
мне нужен парсер статей с обычных сайтов.
Так этож просто.
В два прохода сделай.
Первый ходит по страницам и грабит ссылки где статьи лежат и записываем их в базу
ВО второй проход парсер заходит по ссылкам и регулярками извлекают от туда текс и записвает в удобный тебе формат
 
  • Заблокирован
  • #16
Советую для начала внимательно ознакомиться с книгой Регулярные выражения. есть на русском в инете. гуглом ищется.
Думаю сначала напиши элементарный парсер, а потом начинай разбирать примеры, их полно в сети. Пока сам не начнешь программить - чужие исходники можно не понять :(
 
По поводу регулярных выражений есть хорошая статья на Для просмотра ссылки Войди или Зарегистрируйся, там объясняются базовые принципы. А архив регулярных выражений есть Для просмотра ссылки Войди или Зарегистрируйся
 
Спасибо все большое! Не ожидал, что будет так много советов :)
Теперь грех не написать свой парсер :)

Кстати, по поисковому запросу "парсер статей", наш форум на втором месте в выдаче, в гугле :)
 
  • Заблокирован
  • #20
Я раньше писал грабберы для определённых сайтов под свою переделку спайза. Вот ссылка на них, думаю там можно взять пару функций для себя:
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху