Парсинг и чистка текста

Тема в разделе "Вопросы новичков", создана пользователем /Montana, 8 апр 2011.

  1. /Montana

    /Montana Постоялец

    Регистр.:
    28 май 2008
    Сообщения:
    119
    Симпатии:
    6
    Посоветуйте решения для парсинга и чиски контента для доров. Желательно десктопное. Все что нашел в гугле парсит крайне мало и оочень грязно.
    Нужно примерно 10-20 мб текста найденного по указанному кею, ну или на край с конкретно сайта. Чистка же нужна от урлов, слов типа child porn, дат и прочих строк подобно %%%%%%%%%%%12"""gvxm.
     
  2. franya

    franya Создатель

    Регистр.:
    4 окт 2007
    Сообщения:
    47
    Симпатии:
    7
    Попробуй чистить этим:
     

    Вложения:

    • TextCleaner.rar
      Размер файла:
      8,3 КБ
      Просмотров:
      39
  3. alex-bot

    alex-bot Nulled-Man

    Регистр.:
    4 май 2007
    Сообщения:
    497
    Симпатии:
    144
    Для парсинга скрипт парсер статей, типа от вип бабло (на форуме был) на ПЫХе, либо оффлайн эксплоер им можно выкачать сайты конкретные. (десктоп)
    Чистка TextPipePro + руки + мозг - творят чудеса с текстом... любого уровня засранности!
    Но ИМХО забей на парсинг, лучше книг в формате txt поищи, потом рандом сделать и будет гуд...
     
    Dr.Sheff нравится это.
  4. aX0en

    aX0en Постоялец

    Регистр.:
    5 авг 2009
    Сообщения:
    108
    Симпатии:
    47
    бери лучше content downloader и забудь навсегда с проблемой парсинга текста.

    Сам много заморачивался с разными парсерами, в том числе и от вип бабло. Количество головняка уничтожает все возможные плюсы.
     
  5. st.pater

    st.pater Создатель

    Регистр.:
    12 сен 2008
    Сообщения:
    18
    Симпатии:
    5
    Вот неплохой парсер бесплатный. Единственная проблема-нет мануала одним файлом, надо смотреть по ссылке описание, читать комменты, пробовать.
    http://ru-net-biz.ru/index.php/2011/01/07/obnovlenie-parsera-060111/
     
  6. FaLL3N

    FaLL3N Постоялец

    Регистр.:
    4 дек 2006
    Сообщения:
    100
    Симпатии:
    17
    content downloader. реально, лучше него не встречал, софт сказочен в своей работе, прост в настройке, только за пункт "находить статью автоматически" в верстке стоит ставить памятник разработчикам. В умелых руках за 10 минут делает 10 мб текстовки для доров.
     
  7. bork75

    bork75 Д☼брая собака )

    Регистр.:
    21 июн 2008
    Сообщения:
    1.449
    Симпатии:
    716
    Тоже за content downloader, но он не парсит по кею, как хотел ТС.
     
  8. gts

    gts

    Регистр.:
    12 сен 2010
    Сообщения:
    271
    Симпатии:
    42
    +1 за content downloader. По кею долго парсить придется, самый верный метод - это парсить крупные сайты по нужной тематике.
     
  9. Андрей Тимошенко

    Андрей Тимошенко Создатель

    Регистр.:
    24 июл 2009
    Сообщения:
    41
    Симпатии:
    5
    Для парсинга по кею в яндексе -Anadyr2, прост и бесплатен
    http://seofun.org.ua/wp-content/uploads/2010/01/Anadyr2.zip
    Для забугорного - парсер Магдан

    Чистка текста еще порекомендую - AfterScan Webmaster
    незабудьте Shtirlitz- решает вопросы с кодировкой
     
  10. Rellas

    Rellas Создатель

    Регистр.:
    3 июн 2010
    Сообщения:
    45
    Симпатии:
    3
    Парсинг по кею это имеется ввиду вбил кей, например "недвижимость" и получил статьи на эту тему, а анадырь, магадан это парсеры кеев.

    По теме - я за гигабайты книг :)