Розпознавания Капч (теория)

4 Листопада 2008
Для успешного ведения спам-бизнеса необходимы лист с качественными проксями, а также умения распознавания капч. По последнему пункту идет сейчас обесточенная борьба между светлыми и темными иными и конец этой борьбы я вижу лишь в индусах, которые за копейки распознают любые сложнейшие капчи. Но пока сложность капч на достаточно низком уровне их можно розпознать и алгоритмическими методами. Вот приблизительный план к действию (все эти методы почерпнуты с своей роботы по распознаванию и сравнению отпечатков пальцев): 1. Первоочередная задача состоит в том чтобы максимально отсеять шум. Для это сначала переводим картинку с RGB (http://en.wikipedia.org/wiki/RGB) представления в HLS (http://en.wikipedia.org/wiki/HLS_color_space) и дальше будем работать лишь в HLS формате, потому-что именно в этом формате цвет видит глаз человека (ну не совсем так... но все же). 2.Потом загружаем пару штук Капч в ФотоШоп и нажимаем Ctrl+U, а дальше начинаем водить разными ползунками и смотрим на результат. Приблизительно запоминаем какой ползунок и в какую сторону двигали, и все это повторяем программным путем на картинке Капче. 3. Проходим по всей картинке и к каждому пикселю применяем следующее - если яркость пикселя больше определенной величины, то делаем его черным, если меньше - то белым. 4. Следующий шаг - убрать одиночные пиксели, линии и другие рудименты. 5. Ну и последний этап - это передать обработанную картинку на систему распознавания образов - типа ФайнРидер. Ну приблизительно так, хотя можно в промежуточные этапы подобавлять например - применения фильтра по увеличению контрастности ну и в таком роде. Хотя все это достаточно сложно звучит на словах в реализации на PHP делается легко. В следующих постах буду по понемногу описывать именно практическую сторону. Кстати, особенно интересные вещи наверно будут доступны только подписчикам по RSS ленте. Не знаю для чего, но как говорят - просто так ). И кстати, если кто-то привлечет определенное количество людей на блог, например сделав запись в своем блоге или что-то в таком роде, то обещаю в ответ у себя описать его блог, а также в конце эксперимента иль дать полностью рабочие скрипты иль может еще и определенную суму денег. Но об этом пока что немного рановато говорить.
 
 
 
Роман Хоменко aka PresidentUA
mail/jabber: spirt40@gmail.com