Идеальный автоблоггер

Тема в разделе "Автоблоггинг", создана пользователем itex, 1 май 2009.

Статус темы:
Закрыта.
  1. itex

    itex

    Регистр.:
    15 ноя 2007
    Сообщения:
    274
    Симпатии:
    64
    Размышлял над тем, что требуется от идеального автонаполнителя сайтов, сделал небольшое ТЗ для себя, надеюсь Вам будет тоже интересно и Вы добавите некоторые пункты, чтобы Вам хотелось в идеале.
    http://itex.name/plugins/idealnyj-avtoblogger.html
    Предлагаю обсудить в теме желаемые возможности такого рода скриптов. Постараюсь добавлять пункты по мере поступления желаний. Интересно, что людям не хватает до кнопки Бабло.:idea:
     
  2. Dador

    Dador Читатель

    Заблокирован
    Регистр.:
    14 янв 2008
    Сообщения:
    368
    Симпатии:
    97
    т.к. сайт у самого грузился мега долго размещаю заодно и тут
    Код:
       1.  Получение контента
             1. Источники
                   1. Прописанные Рсс (R)
                   2. Динамические рсс по кейвордам с поисковиков
                   3. Обход заранее прописанных сайтов по и копирование контента по сигнатурам.
                   4. Обход заранее прописанных сайтов, без сигнатур,
                   5. Обход случайных сайтов и выдирание самого большого куска текста
             2. Ходить на сайты из пермалинков рсс и выдирать полные новости (R)
             3. Работа с проксями
             4. Получение тегов из рсс (R)
             5. Проверка не закачивался ли раньше файл по хешу (R)
             6. Частота опроса  (R)
       2. Фильтрация контента
             1. Порог входа
                   1. Запрещенные слова(R)
                   2. Обязательно нужные слова  (R)
                   3. Контент только со страницы, а не из рсс  (R)
                   4. Минимальное количество символов (R)
                   5. Ссылки на сайты в блеклисте
             2. Работа с текстом
                   1. Очистка от тегов, все кроме разрешенных (R)
                   2. Синонимизация контента(R)
                   3. Подсветка кейвордов
                   4. Перевод текста из одного языка в другой
                   5. Двойной перевод для уникализации
                   6. Очистка от предопределенных распространенных фраз, например копирайты плагинов. (R)
                   7. Замена указанных фраз на нужные
                   8. Вставка тега <!more> в середину, соблюдая последовательность тегов
             3. Работа с титлом
                   1. Обрезание титла по длине  (R)
                   2. Синонимизация титла  (R)
             4. Работа с тегами
                   1. Поиск тегов по шаблону популярных движков  (R)
                   2. Поиск тегов при помощи Яху апи (R)
             5. Работа с изображениями
                   1. Кеширование изображений к себе на сервер (R)
                   2. Добавление альтов и титлов к изображениям  (R)
                   3. Создание превью картинок
                   4. Кеширование изображений на сторонние хостинги
             6. Темплейты
                   1. {text}{url} (R)
                   2. %text%%url% {qw|wq|qwq}
             7. Мешап
                   1. Youtube видео
                   2. Flickr фотографии
       3. Постинг
             1. XmlRpc
                   1. Вордпресс, блоггер (R)
                   2. Урл блога, логин, пароль, типа блога, статус поста  (R)
                         1. Использовать дату с источника (R)
                         2. Использовать случайное время, прибавленное или убавленное к времени источника  (R)
                         3. Автоматом создавать категории (R)
                         4. Добавлять к загружаемым изображениям хеш в имя.(R)
                         5. Расписание постинга, эмуляция человека
                         6. Максимум постов в день на блог
             2. В файл для распарсивания
             3. Посылать по почте
             4. Послать на урл в POST
    
    А теперь дополнения:
    По "Постинг" конверт в файлы экспота, в БД/Sql
    По "Фильтрация контента" - уник различными путями с настройкой: синонимы, перевод, перемешка, замена похожих букв, и.т.д
    А с "Получение контента" ввел кейворд, он полез в гугл -> загрузил сайты по тематике, с учетом обязательных слов в тайтале и.т.д отпарстил целиком сайты, выделил только текст путем отбрасывания повторяющегося лишнего и загрузил в БД.

    p.s. и большую толстую кнопку "БАБЛО" чтобы нажать и всё сделал сам :D
     
    prof.seo и itex нравится это.
  3. vasya999

    vasya999

    Регистр.:
    14 дек 2006
    Сообщения:
    310
    Симпатии:
    45
    Мои 5 копеек.
    Основная задача сплогов - войти в индекс. На дублированном контенте это сделать оч сложно. Всю данную схему я успешно построил на DevilSeoComplex, однако даже если контент брался из далеких от яндекса источников, дубль не входил/вылетал из индекса.
    Если парсить выдачу то это вообще кабздец, практически сразу.
    Теперь по реализации
    Все это может сделать яху пайпс. Он соберет и рсс и выдачу по нужным кивордам,почистит, поправит код + можно перевод сделать.
    Если попросишь меня, то дам адрес своей трубы, она просто тянет контент с яху и гугла. При желании доработаешь
    Почитывай чувака, у него есть как это сделать.
    Раз http://alexvolkov.ru/besplatnyjj-kontent-kartinki.html
    Два http://alexvolkov.ru/rabota-s-youtube-api.html

    По третьему пункту.
    XMLRPC на мой взгляд не лучший выход. Самый лучший вариант это напрямую в базу вносить INSERT INTO... но тут надо уметь сконструировать запрос. В том же вп надо еще и метки и кросспостинг если есть и т.п. Поэтому для постинга оптимальный вариант - юзать внутренние функции движка, например того же вп. В блоге выше я все это читал http://alexvolkov.ru/posting-v-vordpress-iz-skriptov.html
    Разнос по дате делается скриптом. Количество в день это можно выставить в парсере.
    Вот это не понял зачем вообще надо. Еще смс отправку себе на телефон сделай.
    Надеюсь, хоть немного но помог тебе.
     
    prof.seo и itex нравится это.
  4. itex

    itex

    Регистр.:
    15 ноя 2007
    Сообщения:
    274
    Симпатии:
    64
    :ay:
    Напрямую через скуль или функцию движка добавить надо в список просто. Изначально в мозгах заело, что типа какойто централизованный скрипт будет, который разными способами будет постить контент в зависимости от условий.
    Далее по пунктам, для чего нужно использование:
    В файл для распарсивания - для различных самописных движков и тд.
    Посылать по почте - для блоггера и тд. Кстати xmlrpc из той же оперы, плюс поддержка вордпресса и похожих движков.
    Послать на урл в POST - аналог файла для распарсивания, тока посылать на какойнить сервис для дальнейшей обработки.
     
  5. vasya999

    vasya999

    Регистр.:
    14 дек 2006
    Сообщения:
    310
    Симпатии:
    45
    itex, ты пытаешся сделать комбайн для всего, а тебе надо лишь сажать и выкапывать картошку. Если ты не собираешся продавать парсенный контент, то все эти возможности вывода тебе не нужны. А если собираешся, то сделай отдачу в рсс (по паролю) и неипи мозг. Рсс запихнуть можно почти куда угодно.
    Далее по теме, все мое имхо. Работают в основном простые схемы. Тот же девил, да круто, да функционала много, только всю его работу делают три скрипта - первый устанавливает, второй парсит, третий для красоты. Причем взаимодействие между ними до неприличия примитивно - exec("echo 0 0/2 0 0 0 php parser.php someparams >> crontab");
    И все, установленный сплог сам начнет наполнятся каждые 2 часа.
    Использование блоггера не думаю оправданным. Прокачивать такой сплог смысла нет, если только на траф работать, не факт что получится. Тут выбор между standalone платформами. Вордпресс замылен, но под него решений полно, я выше линков накидал. Под остальные придется самому думать. Хотя ты вроде плуги какие то писал, справишься я думаю.
     
  6. itex

    itex

    Регистр.:
    15 ноя 2007
    Сообщения:
    274
    Симпатии:
    64
    Насчет блоггера хз, плюсы в том, что тама вложений не надо. Хоть тысячами сайты клепай. Проблемы с баном начальных акков тока надо будет обойти и прокси для постинга прикрутить.
     
  7. Sangre

    Sangre Постоялец

    Регистр.:
    12 ноя 2008
    Сообщения:
    51
    Симпатии:
    6
    Имхо, от версии движка и установленных модулей запрос каждый раз будет меняться. Хотя если всегд использовать одну версию и слегка её модифицировать.

    По мне лучше сделать выдачу в RSS, а ВП и прочие движки будут забирать её, под каждый распространённый двиг куча плагинов по этой тематике.
     
  8. Dador

    Dador Читатель

    Заблокирован
    Регистр.:
    14 янв 2008
    Сообщения:
    368
    Симпатии:
    97
    Переписал под себя весь список, только то что мне нужно :)
    и начал делать, правда в некоторых частях ступор, например вот контент как на странице выделить?
    есть несколько вариантов:
    • По ранее заданым регуляркам - не универсален, под каждый сайт - нужна своя регулярка
    • По классам/названиям/идшникам тегов -- бывает часто что они повторяются, и решить где контент сложно, кто поможет как выбрать контент из этого всего -- регулярка на выделение этих тегов уже есть
    • По количеству именно текста в каких либо тегах -- тоже, может там внутри какая-то таблица, или дополнительный див, или много новостей на одной странице -> сложно выбрать из такого количеста все новости
    • Определяя тематику текста, и сопостовлять её с тематикой сайта, т.е. выделять ключевые слова присущие сайту -- могут быть куски вроде покупных ссылок или рекламы, => фигня
    • отсекая части которые есть на многих страницах сайта, выбирать только контент и составить в процессе регулярку для п.1 --- хз вот как найти эти повторяющиеся части, может как-то через поиск дублей (кто поможет с поиском дублей в массиве страниц - будет поиск контента на неплохом уровне)
    вот так... у кого есть ешё какие идеи, пишите - скажу спасибо
     
  9. itex

    itex

    Регистр.:
    15 ноя 2007
    Сообщения:
    274
    Симпатии:
    64
    Если кто хочет, то можно попробовать альфу версию скрипта сервиса выпустить. От Вас нужны будут ленты, откуда парсить, логины пароли для пользователя блога, который имеет доступ на добавление статей. Нужно будет создать отдельного, чтоб не раскрывать пасс админа. Ну можно и просто админа. И время от времени на блог будут падать статьи, пока без крона скрипты запускаю. Можно настроить, чтоб в черновики писалось, чтоб потом вручную на них смотреть и разрешать публикацию. Если контент английский, то будет хорошо синонимизирован. Русского синонимайзера пока не прикручено. Интерфейс довольно лаконичен, такчто о назначении той или иной настройки придется догадываться по названию.

    ifoxy.itex.name

    инвайты:
    Код:
    9c27de999fb3e5f1ba7ac227315af74b
    fbd5f3485e91a5beb6c82e5a70915ab2
    ace59753179c2aa31179a67cf019e222
    
    Пожалуйста, если наткнетесь на ошибку, не расстраивайтесь, все очень сырое.
     
  10. vasya999

    vasya999

    Регистр.:
    14 дек 2006
    Сообщения:
    310
    Симпатии:
    45
    Хых, все инвайты расхватали, и не отписали.
     
Статус темы:
Закрыта.