Чем вытащить ключи?

Тема в разделе "Вопросы новичков", создана пользователем sherh, 24 мар 2009.

Статус темы:
Закрыта.
  1. sherh

    sherh Постоялец

    Регистр.:
    12 июн 2007
    Сообщения:
    131
    Симпатии:
    53
    Напарсил агрессом редбаттоновские map.html
    Чем можно вытащить оттуда кейворды? Посоветуйте скрипт какой-нибудь.
     
  2. Piranha

    Piranha

    Регистр.:
    1 дек 2008
    Сообщения:
    534
    Симпатии:
    69
    Либо TextTipePro настраивай фильтр, либо ручками ctrl+с ctrl+v (если карт немного).
    А вообще чужие карты неблагародное это занятие, народ ленится и ключи там мягко говоря не самые лучшие...

    ps если не секрет по каким признакам парсил, мне просто интересно как можно признаком отсортировать именно доры и именно определенной тематики
     
    sherh нравится это.
  3. sherh

    sherh Постоялец

    Регистр.:
    12 июн 2007
    Сообщения:
    131
    Симпатии:
    53
    Карт около 3к... доры вообще неблагодарное занятие:D
    Свою базу собрал, но кажеться что мало, поэтому нужно посмотреть какие еще можно использовать.

    Не секрет. Напарсил только по Untitled, вытяну ключи, потом буду отбирать по нужной тематике и чистить от мусора.
     
  4. symbolz

    symbolz Постоялец

    Регистр.:
    26 янв 2008
    Сообщения:
    75
    Симпатии:
    14
    елси не сложно, то выложи пример, не обязательно с реальными данными, но чтобы структура совпадала. Что есть и что хочешь получить. Попробую помочь :)
     
  5. Piranha

    Piranha

    Регистр.:
    1 дек 2008
    Сообщения:
    534
    Симпатии:
    69
    да не я к тому что там мусора очь много будет

    :haha: ппц все ленивые, имя даже не поменять

    там все банально
    надо выдернуть текст между > </a>
     
  6. serrgo

    serrgo

    Регистр.:
    13 авг 2006
    Сообщения:
    158
    Симпатии:
    77
    (?<=\>)[\w\W]*(?=\<\/a\>) Вот эта регулярка найдет все записи между > и </a> .
     
  7. sherh

    sherh Постоялец

    Регистр.:
    12 июн 2007
    Сообщения:
    131
    Симпатии:
    53
    Есть 3 к урлов c кодом:
    Код:
    <HTML class="site.ru" >
      <HEAD>
        <TITLE>Untitled page</TITLE>
      </HEAD>
      <BODY>
        <UL>
          <LI>
            <A href="http://www.site.ru/index.html" >key</A>
          </LI>
          <LI>
            <A href="http://www.site.ru/page1.html" >key2</A>
          </LI>
          <LI>
           <A href="http://www.site.ru/page2.html" >key3</A>
           ...
           <A href="http://www.site.ru/page-n.html" >key-n</A>
          </LI>
        </UL>
      </BODY>
    
    Требуется вытащить все key в текстовый файл.
    Регулярка
    (?<=\>)[\w\W]*(?=\<\/a\>)
    думаю не подойдет, так как это страница в чистом виде. А много урлов на фришниках, где присутствует дополнительный код (баннеры и т.п.)
    Нужно вытаскивать от
    <UL>
    <LI>
    до
    </LI>
    </UL>
    </BODY>
    на сколько я понимаю.
    Причем будут встречаться битые урлы, которые надо пропускать, если нет совпадений по шаблону.
    Моих знаний php на такую элементарную вешь недостаточно. Если нет готовых решений и никто не поможет, придется научиться самому... или копипаст:eek:
     
  8. _king

    _king Постоялец

    Регистр.:
    25 июн 2008
    Сообщения:
    120
    Симпатии:
    3
    все делается элементарно. даешь скрипту список урлов, он закачивает по одной мапе, выдирает ключи и ложит их в файл.
    в чем сложность??

    ну будет немного мусора. что за проблема загнать кеи в kwk и почистить?


    регулярка для русских кеев "/>([a-zA-Zа-яА-Я0-9 ]*)<\/a>/si"
     
  9. frayk

    frayk Постоялец

    Регистр.:
    24 июл 2008
    Сообщения:
    103
    Симпатии:
    16
    Вот этим прекрасно вытаскивается http://www.pastukhov.com/harvester/PastukhovKeywordHarvesterInstall.exe
     
    View, symbolz и sherh нравится это.
  10. Bags85

    Bags85 Постоялец

    Регистр.:
    3 июл 2008
    Сообщения:
    68
    Симпатии:
    6
    Имхо, лучше сам напиши скрипт. Посмотри сайт php.su, этого будет достаточно. Скрипт пишется за 5 мин, но зато потом будет уже проще, всегда сможешь сам сделать нужную вещь. Я именно так и начинал, зато сейчас не запариваюсь, когда нужно автоматизировать какие-то мелочи.
     
Статус темы:
Закрыта.