Сделать выборку в огромном текстовом файле

Тема в разделе "Другие языки", создана пользователем zilon, 20 ноя 2012.

Модераторы: Цукер
  1. zilon

    zilon

    Регистр.:
    30 июл 2011
    Сообщения:
    370
    Симпатии:
    147
    Есть гигантский текстовый файл - 20 ГБ 400 миллионов строк :rules:

    надо сделать выборку по одному единственному слову и сохранить полученные результаты в текстовый файл, как это сделать под виндой, через консоль? Подскажите кто знает...:thenks:
     
  2. _sergey_

    _sergey_ Писатель

    Регистр.:
    1 окт 2008
    Сообщения:
    1.746
    Симпатии:
    1.161
    Ты базу пастухова имеешь ввиду? Она в UTF-8, желательно перевести её в 1251. Тогда объём вдвое сократится почти и выбор по прогам появится. А то к примеру искал KeyWordKeeper - так ищет только английские ключи, чтобы русские искала и нужно кодировку файла менять. А скорость - это от мощности компа зависит, у меня на выборку из 26 гигового файла полчаса ушло. Ещё Textpipe Pro есть - тут на форуме большая тема - но она требовательна к оперативке, такой файл сомневаюсь что сожрёт сразу, надо резать на части и тоже предпочитает 1251. В общем это тут много раз уже обсуждалось, юзай поиск. Или в базу данных на сервере каком загрузи - там уже и выборку делай.
     
    zilon нравится это.
  3. zilon

    zilon

    Регистр.:
    30 июл 2011
    Сообщения:
    370
    Симпатии:
    147
    Да, база это пастухова) нашёл решение отсюда паувершел скачал Перейти по ссылке файл текстовый, засунул в папку учётки - C:\Documents and Settings\Admin и вставил запрос

    Select-String "скачать.*windows" Название-файла.txt | Foreach-Object {$_.Line} > out.txt

    всё нашлось и сохранилось в текстовый файл)
     
  4. _sergey_

    _sergey_ Писатель

    Регистр.:
    1 окт 2008
    Сообщения:
    1.746
    Симпатии:
    1.161
    Я так понимаю вот эту штуку поставил? Перейти по ссылке

    Не уверен что это лучше KeyWordKeeper, в ней можно задать также список исключений, чтобы в итоговом файле было мусора поменьше.
     
  5. zilon

    zilon

    Регистр.:
    30 июл 2011
    Сообщения:
    370
    Симпатии:
    147
    да эту, kwk у меня очень долго ищет, а эта намного быстрее, но kwk потом можно чистку сделать
     
  6. _sergey_

    _sergey_ Писатель

    Регистр.:
    1 окт 2008
    Сообщения:
    1.746
    Симпатии:
    1.161
    Согласен. Но твоя приблуда мне наверно не подойдёт, так как диск С по размеру меньше чем этот файл, а там ещё система и т.п.

    Есть кстати и другие варианты, типа Yandex Desktop, или другие поисковики по жёсткому диску. Создаётся индекс по которому и производится поиск.
     
  7. zilon

    zilon

    Регистр.:
    30 июл 2011
    Сообщения:
    370
    Симпатии:
    147
    кстати в третьем сообщении ссылка на инсталятор power shell'a только для windows XP, я на семёрку пересел, долго новый инсталятор искал и нашёл, вот ссылка на него Перейти по ссылке после установки ярлык находится в Пуск >> Все программы >> Стандартные >> папка Windows PowerShell
     
  8. efs

    efs SEO оптимизатор дискрипторов одностраничных сайтов

    Moderator
    Регистр.:
    20 ноя 2009
    Сообщения:
    833
    Симпатии:
    491
    попробуйте Powergrep, позволяет искать и сохранять результаты в файл как по прямому вхождению, так и по частичному и по регулярным выражениям. сам использую для пастухова.
     
  9. _sergey_

    _sergey_ Писатель

    Регистр.:
    1 окт 2008
    Сообщения:
    1.746
    Симпатии:
    1.161
    Скачал портативную тут:
    Перейти по ссылке
    посмотрел... А русифицированной версии у тебя нету случаем? А то уж очень навороченная прога.
     
  10. efs

    efs SEO оптимизатор дискрипторов одностраничных сайтов

    Moderator
    Регистр.:
    20 ноя 2009
    Сообщения:
    833
    Симпатии:
    491
    не встречалась. но там все довольно просто, наводите мышку на любой элемент и справа появится справка. где в принципе все достаточно понятно расписано.