Od pewnego czasu obserwuję między innymi taki spam komentarzowy:
Obraz wideo i dzwiek odczytywane z plyty DVD narzedzi intelektualnych, niezbednych do. Byli i sa wsrod mozgu maja znacznie wiecej na elektryczne sygnaly, przesylane mozna bylo. Pierwsze komputery Pierwszym komputerem w podobny sposob jak kart perforowanych, przeprowadzajacym obliczenia. Naleza do niego z obliczeniami wartosci wypelniajacymi do 800 MHz, a kilkanascie razy wiecej. W mozgu natomiast nas wlasciciele srodkow pozycjonowanie chemiczne, nie w pozycjonowanie twardego. (...)
Zastanawiam się jak taki tekst powstaje, czy jest to bezładna "kompilacja" kilku tekstów, czy może skutek wykorzystania łańcuchów markowa? Domyślam się, że celem jest obejście filtrów bayesowskich. Jak na razie podejście to jest niezbyt skuteczne.
W tym kontekście zastanawia mnie jedna sprawa - ciekawe jak w filtrowaniu spamu sprawdzałoby się sprawdzanie ortografii i gramatyki tekstu. Raczej jako jeden z czynników decydujących o klasyfikacji wiadomości niż jako jedyny wyznacznik spamu. Zastosowanie takiego filtra mogłoby się również przyczynić do drastycznego podniesienia jakości "komentarzy na onecie"... Z drugiej strony przypuszczam, że akurat jakość komentarzy im niższa (znaczy - im komentarze głupsze), tym lepsze. Budzą chęć do reakcji, kliknięcia lecą, leci też kasa od reklamodawców.
http://lcamtuf.coredump.cx/blog.shtml
Sprawdzanie ortografii jest mało celowe - akurat to automatom będzie bardzo łatwo ominąć. Za to sprawdzanie gramatyki wygląda na ekstremalnie trudne.
No i jest trzecia możliwość - spamerzy zaprzęgli AI do roboty i to co widać to po prostu np. szkolenie się AG - jeśli tekst zostanie opublikowany na blogach, to algorytm, który go wygenerował dostaje dodanie punkty do oceny...