Ищу [Ищу] Парсер контента по url

Тема в разделе "Софт", создана пользователем Soprano, 25 апр 2013.

  1. Soprano

    Soprano Комбинатор

    Регистр.:
    11 апр 2009
    Сообщения:
    623
    Симпатии:
    954
    Подскажите, если знает кто, программу для парсинга текста.
    Задается произвольный url типа http://www.yahoo.com ,
    указывается количество статей сколько парсить c этой страницы - скажем, 10.
    Статьи парсятся целиком и складываются в папку в виде txt - название статьи будет названием файла.
    Больше никакие настройки не нужны.
    Есть что-нибудь подобное, но попроще чем Content Downloader?
     
  2. obli

    obli Создатель

    Регистр.:
    1 май 2013
    Сообщения:
    45
    Симпатии:
    2
    помоему тут 2 проги нужны грабилка каторая будет откудато чего то грабить и только потом уже парсером это все делать разруливать
     
  3. Nei

    Nei Nosce te ipsum

    Регистр.:
    5 сен 2009
    Сообщения:
    600
    Симпатии:
    468
    ИМХО тяжело будет найти универсальное решение - нужен скрипт-парсер именно для этой задачи.
     
  4. sergsha

    sergsha Постоялец

    Регистр.:
    15 ноя 2007
    Сообщения:
    62
    Симпатии:
    7
    Универсального решения не может быть в принципе. Программа может автоматически сохранять вэб-страницы со всеми тэгами, но статьи на разных сайтах верстаются по разному, поэтому для каждого типа сайтов нужно разрабатывать свой алгоритм выделения статей из вэб-страниц.
     
  5. obli

    obli Создатель

    Регистр.:
    1 май 2013
    Сообщения:
    45
    Симпатии:
    2
    да в пасере как минимум надо указывать из какого блока,diva или таблицы вам нужен контент в этом ничего сложного но полный автомат эт фантастика
     
  6. komyak

    komyak

    Регистр.:
    4 фев 2009
    Сообщения:
    481
    Симпатии:
    183
    Был такой скрипт, WebGrabber от vipbablo. в нем есть класс универсального парсера.
    Я когда то писал на его основе систему для наполнения автоблогов. На входе был список ключей, которыми парсил гугл и яндекс. Потом эти ссылки парсились и размещались в блог системах.

    Но в любом случае, готовых решений не встречал. Заказывайте. Если указали в теме все требования, то не дорого получится.
     
  7. efs

    efs SEO оптимизатор дискрипторов одностраничных сайтов

    Moderator
    Регистр.:
    20 ноя 2009
    Сообщения:
    824
    Симпатии:
    475
    http://x-parser.ru/software/1-x-parser-light.html
     
    ninjazoom нравится это.
  8. Soprano

    Soprano Комбинатор

    Регистр.:
    11 апр 2009
    Сообщения:
    623
    Симпатии:
    954
  9. Asin

    Asin

    Регистр.:
    18 авг 2008
    Сообщения:
    621
    Симпатии:
    390
    парсер Datacol
     
  10. Dgoneee

    Dgoneee Постоялец

    Регистр.:
    6 май 2013
    Сообщения:
    84
    Симпатии:
    3
    Ну можно попробовать, задать кеи в виде урла сайта в "кавычках"