Универсальный парсер

Тема в разделе "PHP", создана пользователем the_stalker, 16 мар 2008.

Статус темы:
Закрыта.
Модераторы: latteo
  1. the_stalker

    the_stalker Постоялец

    Регистр.:
    19 фев 2007
    Сообщения:
    116
    Симпатии:
    3
    Можно ли создать скрипт универсального парсера который мог бы грабить контент с любого сайта?
    И каков его алгоритм?
    Граберы RSS-фидов не в счет.
     
  2. БАРАДА

    БАРАДА Создатель

    Регистр.:
    3 мар 2008
    Сообщения:
    21
    Симпатии:
    2
    как только все будут использовать универсальную верстку )
     
  3. Dogmat

    Dogmat Постоялец

    Регистр.:
    16 фев 2007
    Сообщения:
    122
    Симпатии:
    38
    не тупи пожалуйста, который год слышу это, только не заметил почему то, чтобы все на него ломанулись. степень серьезности далеко не всегда зависит от языка.


    TC. можно сделать относительно универсальный парсер. несколько вариантов возможны, один из них - написать библиотеку для распарсивания страниц в структурированный вид.
    можно вполне распарсить тексты, возможные ссылки(меню), заголовки - у этих типов достаточно легко выделить исключительные показатели в достаточной мере.

    это тебе на затравку ;), всей технологией естественно делиться никто не будет, не только потому что это достаточно прибыльно может быть, но и по той причине что в паблик такое выпускать нельзя ;)
     
  4. ~Daniel~

    ~Daniel~ Создатель

    Регистр.:
    1 янв 2008
    Сообщения:
    44
    Симпатии:
    10
    Есть вот такая довольно интересная вещ. Но называть это универсальным парсером я бы не стал.
     

    Вложения:

  5. rosko

    rosko Создатель

    Регистр.:
    8 фев 2008
    Сообщения:
    24
    Симпатии:
    3
    С точки зрения житейской мудрости:

    Да, с помощью некого инструмента (в нашем случае пхп) можно создать универсальный инструмент (в смысле парсер), только этот полученный универсальный инструмент (парсер) будет гораздо сложнее в освонии, чем исходный инструмент (то есть, пхп).

    Вывод прост. Нету универсальных парсеров. А если хочешь сделать, тут уже правильно указывали в стороны нейронных сетей и прочих зачатком искусственного интеллекта.

    Учите регулярные выражения и функции пхп для работы со строками.
     
  6. f0xman

    f0xman Прохожие

    универсальный скрипт - НЕТ
    да и не нужен такой, не рентабельно это.
    а вот десктопный софт подобный - есть и очень отлично справляецца с задачами
     
  7. ortega3000

    ortega3000 Создатель

    Регистр.:
    21 мар 2008
    Сообщения:
    14
    Симпатии:
    7
    Я делал следующим образом: писал ядро парсера, которому передавался набор переменных для определенного сайта. Этот набор переменных может содержать все, что нужно для "заточки" ядра под определенный сайт. Естественно. чтопредполагаетсчя, что в пределах одного сайта используется один подход к форматированию материалов. А затем, имея настройки для сайта, парсер сможет брать любые страницы и парсить их на основании этих настроек.

    Хоть нейронные сети и хороши, но использовать их не всегда рентабельно. Лучше дописывать блоки настроек для небольшого ядра.
     
  8. UnixLike

    UnixLike Писатель

    Регистр.:
    24 мар 2008
    Сообщения:
    8
    Симпатии:
    0
    А вот я отвечу, ДА. Можно.

    Правда смотря что именно парсить. Основной контент, "статьи" сайта? Легко. А почему нет?
    Всё сводится к простейшей задачи. (если программировать уметь конечно).
    Ну сами подумайте, если админ/модер/пользователи добавляют контент на сайт, значит его как-то можно и отделить от дизайна.. Правильно? Вот я об этом и говорю..
     
  9. lexesv

    lexesv

    Регистр.:
    15 ноя 2006
    Сообщения:
    219
    Симпатии:
    103
    Написал уже давно (с похожим подходом как описал ortega3000). И давно им сам пользуюсь.
    Настраиваются теги для парсинга (с чего по что выбирать под каждое поле для бд) и делается шаблон sql запроса, Поэтому парсер может работать с любой структурой бд и любым видом сайта.
    В паблик не выложу и даже не продам. ;)

    Вся система писалась за три дня.
     
  10. pitachek

    pitachek Создатель

    Регистр.:
    2 апр 2008
    Сообщения:
    15
    Симпатии:
    4
    parser

    да на ПХП где-то ушло несколько дней для написания. Для автоматизации под несколько сайтов ещё пару дней и того где-то неделя. Есть альтернативы поищите тут на форуме например WP FeedMaster
     
Статус темы:
Закрыта.