Как распарсить HTML в базу данных?

baza1470

Создатель
Регистрация
18 Июн 2008
Сообщения
30
Реакции
0
Пожалуйста подскажите скрипт или софт для наполнения базы из html страниц. Желательно для базы MySQL
 
выразись повнятней ,что со страници нуно в базу залить
 
выразитесь точнее.
[telepatemode]
если вам нужно вынести определенные данные из чужих HTML-страниц в свою базу, то вот краткий список, что вам может понадобится:
Для просмотра ссылки Войди или Зарегистрируйся, для формирования запросов.также подойдет CURL, либо другие встроенные в PHP инструменты, для обращения страниц, но только в случае сайтов слабо(вообще не-) защищенных от автоматического парсинга
для парсинга HTML-а удобно использовать DOM Function из стандартной поставки + XPath.гораздо более улобно и эффективно чем регулярки
наполнять же базу спарсенными данными.ну это уже ручками)
[/telepatemode]
 
Всем спасибо за отклик!
Вбивать данные в базу ручками?! - оставлю это даже без комента, ну слов просто нет выразить эмоцию.
Уже вторую неделю мучительно вспоминаю де видел софтину для авто залива мускула. Вспомню, найду - обязательно запостю на форуме! И прежде всего чтоб самому на будущее проще искать было.
Подробнее о задаче... - полноценный сайт турагенства потребно сделать.
Для этой цели и надо создать базу с типовыми данными: страна-описание, курорт-описание, отель-описание, прочее-типовое.
Готового в сети ничё ненашел.

Добавлено через 33 минуты
Проще и быстрее один раз базу обработать на локальном компе у себя и потом из нее выбирать статьи и вставлять на сайт.

- есс!!
тока де взять базу?..
:(
 
Вбивать данные в базу ручками?! - оставлю это даже без комента, ну слов просто нет выразить эмоцию.

я подразумевал, что схемы SQL-запросов для помещения в вашу БД надо составить ручками, чтобы грабер затем подставлял в запрос данные сграбленные с сайта, и отправлял запрос в БД.
вбивать сотни тысяч запросов, тут и у меня никаких эмоций не хватило бы.;)
но, для простейших несвязанных таблиц, вполне могут быть уже готовые коды, которые даже эту часть полностью автоматизируют.я так понимаю вы их подразумеваете.
PS учитывая то, что у вас структура данных более сложная, подозреваю, что саму структуру БД и запросов, все-таки придется продумать самому. не уверен что есть софт для такой автоматизации
 
php manula, preg_match, preg_replace вам в помощь.
 
Для удобства получения чистого контента используйте расширение tidy, и html будет как на ладони! Вот собственно мануал Для просмотра ссылки Войди или Зарегистрируйся.
 
fopen сегодня везде закрыт.

вытягиваем curl ом урл,

потом я начинаю (если списком инфа идет и не поддается preg_matchу) искать на какой-либо уникальный хтмл код, отсекая лишнее, дотягиваюсь до значений, не забывая о strip_tags

все это по циклу до встречи с каким-нить уникальным хтмл-кодом, который всегда найдется в футере, чтобы зацепиться.
 
Думаю без рук не обойдется, ибо всё равно нужно указывать какие участки кода нужны в базе.
 
Попробуй



оно может такое делать, только кряк нужно найти под неё.
 
Назад
Сверху