Как распарсить HTML в базу данных?

Тема в разделе "PHP", создана пользователем baza1470, 23 мар 2009.

Модераторы: latteo
  1. baza1470

    baza1470 Создатель

    Регистр.:
    18 июн 2008
    Сообщения:
    30
    Симпатии:
    0
    Пожалуйста подскажите скрипт или софт для наполнения базы из html страниц. Желательно для базы MySQL
     
  2. goodvin

    goodvin Человек-Волшебник

    Регистр.:
    27 июн 2006
    Сообщения:
    667
    Симпатии:
    687
    выразись повнятней ,что со страници нуно в базу залить
     
  3. Alternator

    Alternator

    Регистр.:
    23 мар 2009
    Сообщения:
    295
    Симпатии:
    145
    выразитесь точнее.
    [telepatemode]
    если вам нужно вынести определенные данные из чужих HTML-страниц в свою базу, то вот краткий список, что вам может понадобится:
    Snoopy, для формирования запросов.также подойдет CURL, либо другие встроенные в PHP инструменты, для обращения страниц, но только в случае сайтов слабо(вообще не-) защищенных от автоматического парсинга
    для парсинга HTML-а удобно использовать DOM Function из стандартной поставки + XPath.гораздо более улобно и эффективно чем регулярки
    наполнять же базу спарсенными данными.ну это уже ручками)
    [/telepatemode]
     
  4. baza1470

    baza1470 Создатель

    Регистр.:
    18 июн 2008
    Сообщения:
    30
    Симпатии:
    0
    Всем спасибо за отклик!
    Вбивать данные в базу ручками?! - оставлю это даже без комента, ну слов просто нет выразить эмоцию.
    Уже вторую неделю мучительно вспоминаю де видел софтину для авто залива мускула. Вспомню, найду - обязательно запостю на форуме! И прежде всего чтоб самому на будущее проще искать было.
    Подробнее о задаче... - полноценный сайт турагенства потребно сделать.
    Для этой цели и надо создать базу с типовыми данными: страна-описание, курорт-описание, отель-описание, прочее-типовое.
    Готового в сети ничё ненашел.

    Добавлено через 33 минуты
    - есс!!
    тока де взять базу?..
    :(
     
  5. Alternator

    Alternator

    Регистр.:
    23 мар 2009
    Сообщения:
    295
    Симпатии:
    145
    я подразумевал, что схемы SQL-запросов для помещения в вашу БД надо составить ручками, чтобы грабер затем подставлял в запрос данные сграбленные с сайта, и отправлял запрос в БД.
    вбивать сотни тысяч запросов, тут и у меня никаких эмоций не хватило бы.;)
    но, для простейших несвязанных таблиц, вполне могут быть уже готовые коды, которые даже эту часть полностью автоматизируют.я так понимаю вы их подразумеваете.
    PS учитывая то, что у вас структура данных более сложная, подозреваю, что саму структуру БД и запросов, все-таки придется продумать самому. не уверен что есть софт для такой автоматизации
     
  6. kioit

    kioit Прохожие

    php manula, preg_match, preg_replace вам в помощь.
     
  7. philip15

    philip15 Создатель

    Регистр.:
    25 фев 2009
    Сообщения:
    12
    Симпатии:
    1
    Для удобства получения чистого контента используйте расширение tidy, и html будет как на ладони! Вот собственно мануал http://www.php.net/manual/ru/book.tidy.php.
     
  8. zebr

    zebr Прохожие

    fopen сегодня везде закрыт.

    вытягиваем curl ом урл,

    потом я начинаю (если списком инфа идет и не поддается preg_matchу) искать на какой-либо уникальный хтмл код, отсекая лишнее, дотягиваюсь до значений, не забывая о strip_tags

    все это по циклу до встречи с каким-нить уникальным хтмл-кодом, который всегда найдется в футере, чтобы зацепиться.
     
  9. ddvhouse

    ddvhouse Писатель

    Регистр.:
    23 апр 2008
    Сообщения:
    5
    Симпатии:
    0
    Думаю без рук не обойдется, ибо всё равно нужно указывать какие участки кода нужны в базе.
     
  10. obnon

    obnon

    Регистр.:
    1 июн 2008
    Сообщения:
    245
    Симпатии:
    40
    Попробуй


    http://www.navicat.com


    оно может такое делать, только кряк нужно найти под неё.