Jak działa filtr Bayesa

Filtr Bayesa to technologia filtrowania i zwalczania spamu używana w programie GFI MailEssentials. Jest to technika adaptacyjna bazująca na algorytmach sztucznej inteligencji, zaawansowana w stopniu pozwalającym zwalczać najszerszą gamę używanych współcześnie technik spamowania.

UWAGA

1. Antyspamowy filtr Bayesa jest domyślnie wyłączony. Przed włączeniem filtru Bayesa zdecydowanie zalecamy przeprowadzenie jego szkolenia.

2. Program GFI MailEssentials musi działać co najmniej przez tydzień, zanim filtr Bayesa osiągnie optymalny poziom efektywności. Działanie takie jest wymagane, ponieważ filtr Bayesa osiąga najwyższy poziom wykrywania w przypadku adaptacji do trendów poczty e-mail użytkownika.

Jak działa antyspamowy filtr Bayesa?

Filtrowanie z użyciem filtru Bayesa opiera się na zasadzie wzajemnej zależności większości zdarzeń i możliwości oszacowania prawdopodobieństwa wystąpienia danego zdarzenia w przyszłości na podstawie jego wcześniejszych wystąpień.

UWAGA

Aby uzyskać więcej informacji na temat matematycznych podstaw filtrowania bayesowskiego, skorzystaj z poniższych łączy:

http://go.gfi.com/?pageid=ME_BayesianParameterEstimation

Ta sama technika została zaadaptowana przez program GFI MailEssentials w celu identyfikacji i klasyfikowania spamu. Jeśli fragment tekstu często występuje w wiadomościach e-mail będących spamem, lecz nie we wiadomościach wiarygodnych, można przyjąć uzasadnione przypuszczenie, że dana wiadomość e-mail stanowi spam.

Tworzenie dostosowanej bazy danych słów filtru Bayesa

Przed skorzystaniem z funkcji filtru Bayesa należy utworzyć bazę danych zawierającą słowa i tokeny (np. znak $, adresy IP, domeny itp.). Elementy takie można zebrać z wiadomości e-mail będących spamem i wiarygodnych wiadomości e-mail (określanych angielskim terminem „ham”).

Do każdego słowa i tokenu jest następnie przypisywana wartość prawdopodobieństwa oparta na obliczeniach biorących pod uwagę częstotliwość występowania danego słowa w spamie w porównaniu do hamu. Odbywa się to w ramach analizy wychodzących wiadomości użytkowników i znanego spamu: Wszystkie słowa i tokeny w obu pulach poczty e-mail zostają przeanalizowane w celu stwierdzenia prawdopodobieństwa powiązania danego słowa ze spamem.

Prawdopodobieństwo to jest obliczane zgodnie ze wzorem z poniższego przykładu:

Jeśli słowo „hipoteka” występuje w 400 z 3000 wiadomości e-mail będących spamem oraz w 5 z 300 wiarygodnych wiadomości, prawdopodobieństwo spamu wynosi 0,8889 (tj. [400/3000] / [5/300 + 400/3000]).

Tworzenie niestandardowej bazy danych poczty e-mail będącej hamem

Analiza poczty e-mail będącej hamem jest przeprowadzana na podstawie firmowych wiadomości e-mail, co pozwala dostosować ją do specyfiki przedsiębiorstwa.

  • Przykład: Instytucja finansowa może często korzystać ze słowa „hipoteka”, co spowodowałoby wiele wyników fałszywie dodatnich w przypadku korzystania z ogólnego zestawu reguł antyspamowych. Jednak filtr Bayesa, dostosowany do specyfiki działań firmy podczas okresu szkolenia, analizuje prawidłową, wychodzącą firmową pocztę e-mail (rozpoznając słowo „hipoteka” jako często używane w wiarygodnych wiadomościach) — umożliwia to osiągnięcie dużo wyższej efektywności wykrywania spamu i znacząco niższej liczby wyników fałszywie dodatnich.

Tworzenie bazy danych spamu filtru Bayesa

Oprócz korzystania z poczty e-mail będącej hamem, filtr Bayesa polega również na pliku danych spamu. Taki plik danych spamu musi obejmować dużą próbkę znanego spamu. Ponadto należy go ciągle aktualizować najnowszymi danymi spamu pochodzącymi z oprogramowania antyspamowego. Dzięki temu filtr Bayesa dysponuje informacjami na temat najnowszych trendów w zakresie spamu, co pozwala osiągnąć wysoki stopień jego wykrywania.

W jaki sposób przeprowadzane jest filtrowanie bayesowskie?

Po utworzeniu baz danych hamu i spamu obliczane są prawdopodobieństwa w zakresie słów, po czym filtr jest gotowy do użycia.

Nowa przychodząca wiadomość e-mail jest rozkładana na słowa i następuje identyfikacja najbardziej istotnych z nich (słów mających największe znaczenie w kontekście identyfikacji spamu i hamu). Korzystając z tych słów, filtr Bayesa oblicza prawdopodobieństwo wystąpienia spamu w nowej wiadomości. Jeśli stopień prawdopodobieństwo jest wyższy od wartości progowej, wiadomość zostaje sklasyfikowana jako spam.

UWAGA

Aby uzyskać więcej informacji na temat filtrowania bayesowskiego i wynikających z niego korzyści, zapoznaj się z następującym artykułem:

http://go.gfi.com/?pageid=ME_Bayesian

Szkolenie filtru Bayesa

UWAGA

Szkolenie filtru Bayesa można także przeprowadzić, korzystając z folderów publicznych. Aby uzyskać więcej informacji, zapoznaj się z artykułem Konfigurowanie filtru Bayesa.

Zalecane jest przeprowadzenie szkolenia filtru Bayesa przez pewien okres przy użyciu ruchu poczty e-mail w organizacji. Filtr Bayesa można również uczyć na podstawie wiadomości e-mail wysłanych i odebranych przed zainstalowaniem programu GFI MailEssentials, używając kreatora analizy bayesowskiej. Pozwala to natychmiast rozpocząć korzystanie z filtru Bayesa.

Kreator ten analizuje następujące źródła:

  • wiarygodna poczta e-mail — na przykład folder elementów wysłanych w skrzynce pocztowej,
  • poczta będąca spamem — na przykład folder przeznaczony na spam w skrzynce pocztowej.

Krok 1: Instalacja kreatora filtru Bayesa

Kreator filtru Bayesa można zainstalować w następujących środowiskach:

  • Komputer komunikujący się z programem Microsoft® Exchange — w celu analizowania wiadomości e-mail w skrzynce pocztowej
  • Komputer z zainstalowanym programem Microsoft Outlook — w celu analizowania wiadomości e-mail w programie Microsoft Outlook

Aby zainstalować Bayesian Analysis wizard, wykonaj następujące czynności:

  1. Skopiuj plik instalacyjny Bayesian Analysis Wizard.exe na dysk wybranego komputera. Plik znajduje się w następującej lokalizacji: ścieżka instalacji programu GFI MailEssentials\AntiSpam\BSW\
  2. Uruchom plik Bayesian Analysis Wizard.exe.
  3. Na pierwszym ekranie wybierz język i zapoznaj się z Umową licencyjną użytkownika końcowego. Kliknij przycisk Dalej.
  4. Wybierz folder instalacji i kliknij przycisk Dalej.
  5. Aby rozpocząć instalację, kliknij Instaluj.
  6. Po ukończeniu instalacji kliknij przycisk Zakończ.

Krok 2: Przeanalizowanie wiarygodnych wiadomości e-mail i wiadomości e-mail będących spamem

Aby rozpocząć analizowanie wiadomości e-mail za pomocą kreatora filtru Bayesa:

1. Załaduj kreatora filtru Bayesa z obszaru Start > Programy > GFI MailEssentials > Kreator filtru Bayesa programu GFI MailEssentials.

2. Kliknij przycisk Dalej na ekranie powitalnym.

3. Wybierz jedną z poniższych czynności:

  • Utworzenie nowego pliku profilu bayesowskiego spamu (.bsp) lub zaktualizowanie istniejącego pliku. Należy określić ścieżkę do zapisania pliku i jego nazwę.
  • Bezpośrednie zaktualizowanie profilu bayesowskiego spamu używanego przez filtr Bayesa w przypadku instalacji na komputerze, na którym zainstalowano również program GFI MailEssentials.

Kliknij przycisk Dalej, aby kontynuować.

4. Wybierz metodę uzyskiwania dostępu przez kreatora do wiarygodnych wiadomości e-mail. Wybierz:

  • Użyj profilu programu Microsoft Outlook skonfigurowanego na tym komputerze — pobieranie wiadomości e-mail z folderu poczty programu Microsoft Outlook. Aby można było używać tej opcji, musi być uruchomiony program Microsoft Outlook.
  • Nawiąż połączenie z magazynem skrzynek pocztowych serwera programu Microsoft® Exchange — pobieranie wiadomości e-mail ze skrzynki pocztowej programu Microsoft® Exchange. Na następnym ekranie określ poświadczenia logowania.
  • Nie aktualizuj wiarygodnej poczty (ham) w profilu bayesowskim spamu — pomijanie pobierania wiarygodnych wiadomości e-mail. Przejdź do kroku 6.

Kliknij przycisk Dalej, aby kontynuować.

5. Kiedy kreator nawiąże połączenie z lokalizacją źródłową, wybierz folder zawierający listę wiarygodnych wiadomości e-mail (np. folder Elementy wysłane) i kliknij przycisk Dalej.

6. Wybierz metodę uzyskiwania dostępu przez kreatora do wiadomości e-mail będących spamem. Wybierz:

  • Pobierz najnowszy profil spamu z następującej lokalizacji: Witryna internetowa firmy GFI — pobieranie pliku profilu spamu regularnie aktualizowanego na podstawie poczty pobranej z wiodących witryn archiwizujących spam. Wymagane jest połączenie internetowe.
  • Użyj profilu programu Microsoft Outlook skonfigurowanego na tym komputerze — pobieranie spamu z folderu poczty programu Microsoft Outlook. Aby można było używać tej opcji, musi być uruchomiony program Microsoft Outlook.
  • Nawiąż połączenie z magazynem skrzynek pocztowych serwera programu Microsoft® Exchange — pobieranie spamu ze skrzynki pocztowej programu Microsoft® Exchange. Na następnym ekranie określ poświadczenia logowania.
  • Nie aktualizuj spamu w profilu bayesowskim spamu — pomijanie pobierania wiadomości e-mail będących spamem. Przejdź do kroku 8.

Kliknij przycisk Dalej, aby kontynuować.

7. Kiedy kreator nawiąże połączenie z lokalizacją źródłową, wybierz folder zawierający listę wiadomości e-mail będących spamem i kliknij przycisk Dalej.

8. Kliknij przycisk Dalej, aby rozpocząć instalację pobieranie danych z określonych lokalizacji źródłowych. Proces może potrwać kilka minut.

9. Kliknij przycisk Zakończ, aby zamknąć kreatora.

Krok 3: Zaimportowanie profilu bayesowskiego spamu

Jeśli kreatora nie uruchomiono na serwerze programu GFI MailEssentials, należy zaimportować plik profilu bayesowskiego spamu (.bsp) do programu GFI MailEssentials.

1. Przenieś plik do folderu Data w ścieżce instalacji programu GFI MailEssentials.

2. Uruchom ponownie usługi GFI MailEssentials AS Scan Engine i GFI MailEssentials Legacy Attendant.