eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programmingKlasyfikacja bayesowska stron kodowych › Re: Klasyfikacja bayesowska stron kodowych
  • Path: news-archive.icm.edu.pl!news.rmf.pl!agh.edu.pl!news.agh.edu.pl!news.onet.pl!not
    -for-mail
    From: "Borneq" <b...@a...hidden.pl>
    Newsgroups: pl.comp.programming
    Subject: Re: Klasyfikacja bayesowska stron kodowych
    Date: Sun, 1 Aug 2010 11:00:40 +0200
    Organization: http://onet.pl
    Lines: 29
    Message-ID: <i33d3s$r0i$1@news.onet.pl>
    References: <i317b8$4q1$1@news.onet.pl> <i318sm$94e$1@news.onet.pl>
    NNTP-Posting-Host: 194.117.241.226
    Mime-Version: 1.0
    Content-Type: text/plain; format=flowed; charset="iso-8859-2"; reply-type=response
    Content-Transfer-Encoding: 8bit
    X-Trace: news.onet.pl 1280653244 27666 194.117.241.226 (1 Aug 2010 09:00:44 GMT)
    X-Complaints-To: n...@o...pl
    NNTP-Posting-Date: Sun, 1 Aug 2010 09:00:44 +0000 (UTC)
    X-Priority: 3
    X-MSMail-Priority: Normal
    X-Newsreader: Microsoft Outlook Express 6.00.2900.5931
    X-MimeOLE: Produced By Microsoft MimeOLE V6.00.2900.5931
    Xref: news-archive.icm.edu.pl pl.comp.programming:186213
    [ ukryj nagłówki ]

    Użytkownik "Borneq" <b...@a...hidden.pl> napisał w wiadomości
    news:i318sm$94e$1@news.onet.pl...
    > Jeśli chodzi o Bayesa to najwięcej można znaleźć na temat klasyfikowania
    > spamu

    Szukam przykładu gdzie sposób bayesowski był by dobrze wytłumaczony na
    liczbach. W
    http://inf.ug.edu.pl/~stefan/Dydaktyka/SztIntel/Slaj
    dy/05-26a.pdf jest
    przykład na pomarańczach który rozumiem chociaż mam uwagę że
    prawdopodobieństwo niebieskiego naczynia wynosi 1/3 bo jest tam dwa razy
    mniej kulek niż w czerwonym a według mnie najpierw wybieramy naczynia z
    prawdopodobieństwem 1/2 a dopiero potem jabłko lub pomarańczę.
    Na stronie 8 tego pdf mamy wyliczanie prawdopodobieństwa tego że zbiór słów
    odpowiada spamowi. Czy tutaj zaklasyfikowanie jako spam jest bardziej
    prawdopodobne bo zbiór treningowy spamów jest 3 razy większy niż nie spamów?
    Tutaj nie rozumiem skąd się wzięły liczby według których odbywa się
    liczenie.
    Licznik jeszcze można wytłumaczyć że w P(rynek|S) mamy 1+1 bo słowo "rynek"
    występuje w spamie raz i w treningowym raz, P(szybko|S) mamy 2+1 bo słowo
    "szybko" występuje 2 razy w spamie a raz w badanym.
    Ale co oznaczają liczby w mianowniku? 13 to ilość wszystkich słów a inne
    liczby można by tylko dopasować do przykładu (a zbieżność może być
    przypadkowa bo mamy tylko jeden przykład). 8 to ilość słów w spamie, 5 suma
    w niespamie i w badanym, 2 w badanym. Jednak coś się tu nie zgadza gdy w
    mianowniku mamy sumę 2+5, więc 5 to nie suma, poza tym zaznaczona że dotyczy
    badanego a dwójka nie spamu. Więc coś się tu nie zgadza.
    W http://www.paulgraham.com/naivebayes.html mamy inny wzór na wyliczanie
    prawdopodobieństwa.

Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj


Następne wpisy z tego wątku

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: