Zaawansowana metoda identyfikacji spamu
Kaspersky Lab informuje o uzyskaniu amerykańskiego patentu dla swojej innowacyjnej technologii pozwalającej identyfikować elektroniczne wiadomości tekstowe jako spam.
Spam wyrządza wiele szkód zarówno firmom, jak i użytkownikom indywidualnym. Niechciane wiadomości e-mail często zawierają oszukańcze oferty, szkodliwe załączniki lub odsyłacze do zainfekowanych stron internetowych.
Jedna z najpopularniejszych i najskuteczniejszych metod zwalczania niechcianych wiadomości e-mail polega na klasyfikowaniu wiadomości na podstawie tego, czy zawierają one słowa kluczowe i frazy typowe dla spamu. Praktyka ta umożliwia nie tylko takie skonfigurowanie systemu, aby blokowane były nowe typy spamu, ale zapewnia także wysoki współczynnik wykrywalności przy minimalnej liczbie fałszywych trafień.
Opatentowana metoda klasyfikuje elektroniczne wiadomości tekstowe w oparciu o hierarchiczną listę kategorii wiadomości. Każda kategoria jest definiowana za pomocą zbioru słów kluczowych i szablonów tekstowych. Wiadomość przychodząca zostaje skategoryzowana w następujący sposób: najpierw obliczana jest jej waga względem każdej kategorii zawierającej słowa kluczowe obecne w e-mailu. Następnie określany jest stopień podobieństwa do każdego z szablonów. Jeżeli wiadomość zawiera określoną liczbę słów kluczowych lub jest wystarczająco podobna do jednego z szablonów, zostaje sklasyfikowana do odpowiedniej kategorii, łącznie ze spamem.
Kategorie wiadomości można również dodać ręcznie, wskazując słowa kluczowe i tworząc szablony. Dodatkowo, każda z nich może zostać podzielona na podkategorie, co zapewni bardziej szczegółową klasyfikację. Wiadomości tekstowe mogą być także wstępnie przetwarzane przy użyciu takich technik, jak automatyczne wykrywanie języka, usuwanie często wykorzystywanych słów oraz odfiltrowywanie szumu.