Многопоточность

Статус
В этой теме нельзя размещать новые ответы.

LEXAlForpostl

Мой дом здесь!
Регистрация
21 Май 2008
Сообщения
766
Реакции
228
Здравствуйте.
Написал парсер сайта.
Необходимо спарсить более 200 000 страниц.
На компьютере стоит убунту 10.4; канал интернета 8/0.5 Мб
Увижу ли я прирост в скорости, если запущу параллельно несколько скриптов?
 
исходящий канал маловат, насколько я понял 8 входящий, 0.5 исходящий...
в плане пользы мне кажется 10-15 потоков будет удачно на данном направлении )
на исходящем нолжно хватит канала, когда чекал аськи я создавал до 20 потоков, но там и данных меньше и канал меньше) .5 в оба направления )
 
Если бы нужно было парсить разные сайты, то прирост в скорости был бы однозначно.
А так - только проверять. По идее шустрее должно работать, если сайт не заддосишь :)
 
у тебя есть все возможности чтобы проверить это на практике ;)
мне тут еще вопрос один видится - как ты будешь синхронизировать данные между потоками о том, какие части сайта уже спарсены, а какие нет - дабы не парсить одно и тоже дважны.
 
у тебя есть все возможности чтобы проверить это на практике ;)
мне тут еще вопрос один видится - как ты будешь синхронизировать данные между потоками о том, какие части сайта уже спарсены, а какие нет - дабы не парсить одно и тоже дважны.

скорее всего подразумевается что 1 поток = парсингу 1 страницы целиком
 
как ты будешь синхронизировать данные между потоками
Я сайт на равные части разобью.
Если будет 10 потоков, то каждому потоку достанется по 20к страниц :)
 
Нужно смотреть в сторону multicurl . Обсуждение и пример скрипта можно поиском найти по запросу multicurl .
 
Здравствуйте.
Написал парсер сайта.
Необходимо спарсить более 200 000 страниц.
На компьютере стоит убунту 10.4; канал интернета 8/0.5 Мб
Увижу ли я прирост в скорости, если запущу параллельно несколько скриптов?
Да, я думаю стоит разбить- быстрее будет работать. Ведь скрипт не только скачивает страницы, но и наверно обрабатывает их. В зависимости от сложности может занимать довольно много времени. Но есть вариант, что одновременная обработка может положить серв (если есть ошибки или уж очень сложная обработка)
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху