Готовый парсер редтуба

Тема в разделе "Мелочи", создана пользователем vredin, 1 мар 2010.

Статус темы:
Закрыта.
  1. vredin

    vredin Читатель

    Заблокирован
    Регистр.:
    17 дек 2007
    Сообщения:
    141
    Симпатии:
    35
    мой первый скрипт, бить можно но желательно объективно и в сторону оптимизации скрипта.
    Скрипты ложат в mysql базу тайтл, тайтл по-русски(в процессе), короткий урл, категорию, время добавления, ссылки на превьюшки(это сделал "в лоб"), код для вставки, прямая линка на flv, индикатор выкладывания видео на своем сайте(на всякий случай), индикатор того что превьюшки закачаны.
    есть проверка на дубликаты, т.е. теоретически можно запускать несколько инстансов скрипта.
    Категории нужно допилить в конфиг файле + я не понял по какому принципу видики хранятся на сайте в разных категориях, но понял что около половины на сайте лежат в категории, которую я назвал "general"

    Тестировалось на локалхосте с денвером. К денверу надо дополнительно прикрутить CURL(скачать дополнительные модули на сайте денвера и раскомментировать строку в php.ini)
    Файлы:
    config.php - настройка параметров доступа к БД а также страницы по которой будет делаться выдергивание. Недостаток такой: если парсить с главной, то все ролики будут ложится в одну категорию, а если искать по категориям, то надо немного переделать скрипт либо менять категорию ручками
    func.php - разные функции вынесенные в отдельный файл для удобства
    redtube.php - непосредственно парсер
    get_thumbs.php - стягиватель превьюшек :) Для этого скрипта надо создать папку PICS в которой будут создаваться подпапки с именами равными ID видео. Для использования надо отредактировать переменную $path_to_thumbs
    я разделил парсинг текстового контента и картинок из-за разной скорости обработки, как я и писал ранее парсинг превьюшек к одному видео занимает около 12 секунд(каждая картинка проверяется на наличие и потом выкачивается)
    translate.php и db_edit.php пока не выкладываю, их надо немного допилить.
    redtube.sql - дамп структуры базы.
    Вопросы, предложения приветствую.. делалось чтобы вспомнить что такое программирование(ничего не писал лет 6).
     

    Вложения:

    bork75, loaderws, Serega75 и 2 другим нравится это.
  2. pslava

    pslava

    Регистр.:
    16 май 2007
    Сообщения:
    618
    Симпатии:
    122
    Отличная идея, я бы рекомендовал в переменной $path_to_thumbs из файла get_thumbs.php часть '/home/localhost/www/pics/' перенести в настройки, а так парсер неплохо написан;)
     
  3. lolshik

    lolshik

    Регистр.:
    21 фев 2008
    Сообщения:
    316
    Симпатии:
    127
    Очень даже хороший скрипт. Работает очень быстро. Вопрос: у redtube ссылки на видео файлы постоянные? Как то я уже парсил какой-то ресурс, они постоянно линки меняли.
     
  4. Juri

    Juri

    Заблокирован
    Регистр.:
    5 окт 2007
    Сообщения:
    1.065
    Симпатии:
    197
    ссылки постоянные но время от времени некоторые убивают. В теме про дле лежит два парсера один только редтуб парсит я выкладывал, другой еще несколько адалт тубов. Но и этот скрипт интересен
     
  5. vredin

    vredin Читатель

    Заблокирован
    Регистр.:
    17 дек 2007
    Сообщения:
    141
    Симпатии:
    35
    снифер ловит вот такую линку на сам ролик:
    http://bv9q.redtube.com/467f9bca32b...fc39c0d2f2ce486084fcbd863424/4b8d8269?start=0

    там сильно замученная функция получения урла, но линки старого типа (http://dlembed.redtube.com/_videos_t4vn23s9jc5498tgj49icfj4678/0000014/J2XX6A1S6.flv) тоже работает отлично.

    на всякий случай я добавляю в базу код для вставки - с ним конечно меньше гибкости, нельзя будет свой плеер юзать, но для ГС можно использовать :)
     
  6. vredin

    vredin Читатель

    Заблокирован
    Регистр.:
    17 дек 2007
    Сообщения:
    141
    Симпатии:
    35
    Выкладываю скрипт переводчика для роликов и прикольную тулзу, с помощью которой очень удобно редактировать перевод после Гугла прямо в ячейках таблицы

    translate.php - в запросе принудительно поставлено переводить по 500 строк за раз, перевел так всю базу - на всякие каптчи не нарывался.. в принципе проверку не добавлял ибо еще не знаю как :(

    db2 - запускать index.html. с помощью jqgrid формируется вывод оригинального тайтла и переведенного гуглом. но так как гугл перевел тайтлы очень смешно, то ручная правка просто необходима.
     

    Вложения:

    • translate.zip
      Размер файла:
      317,1 КБ
      Просмотров:
      36
    bork75 нравится это.
  7. vredin

    vredin Читатель

    Заблокирован
    Регистр.:
    17 дек 2007
    Сообщения:
    141
    Симпатии:
    35
    можете ткнуть в другие парсеры? хочу вытащить пару функций - сейчас обдумываю сделать импорт из моей базы в wp и возможно dle

    что касается "умирания" ссылок - могу дописать модуль для проверки наличия роликов и апдейта базы.. теоретически, прогон всех 16к урлов что сейчас на редтубе займет не более часа
     
  8. lolshik

    lolshik

    Регистр.:
    21 фев 2008
    Сообщения:
    316
    Симпатии:
    127
    Функция fixEncoding в 48 строке translate.php отсутствует. Наверное ты её в func.php добавил?
     
  9. vredin

    vredin Читатель

    Заблокирован
    Регистр.:
    17 дек 2007
    Сообщения:
    141
    Симпатии:
    35
    ой, да.. забыл что перенес ее.
    я приложил обновленный файл func.php
     

    Вложения:

    • func.zip
      Размер файла:
      2,3 КБ
      Просмотров:
      39
    bork75 нравится это.
  10. valentinus-gvr

    valentinus-gvr Создатель

    Регистр.:
    21 май 2009
    Сообщения:
    12
    Симпатии:
    1
    Стоило бы добавить ище определение размера файла FLV. :)
     
Статус темы:
Закрыта.