eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programmingKlasyfikacja bayesowska stron kodowych › Re: Klasyfikacja bayesowska stron kodowych
  • Path: news-archive.icm.edu.pl!news.rmf.pl!agh.edu.pl!news.agh.edu.pl!news.onet.pl!not
    -for-mail
    From: "Borneq" <b...@a...hidden.pl>
    Newsgroups: pl.comp.programming
    Subject: Re: Klasyfikacja bayesowska stron kodowych
    Date: Wed, 4 Aug 2010 01:45:04 +0200
    Organization: http://onet.pl
    Lines: 22
    Message-ID: <i3a9mh$rfm$1@news.onet.pl>
    References: <i317b8$4q1$1@news.onet.pl> <4c54a30f$0$19161$65785112@news.neostrada.pl>
    <i3348k$779$1@news.onet.pl> <i33csp$q7p$1@news.onet.pl>
    <4c57d3da$0$2605$65785112@news.neostrada.pl>
    NNTP-Posting-Host: 194.117.241.226
    Mime-Version: 1.0
    Content-Type: text/plain; format=flowed; charset="iso-8859-2"; reply-type=original
    Content-Transfer-Encoding: 8bit
    X-Trace: news.onet.pl 1280879122 28150 194.117.241.226 (3 Aug 2010 23:45:22 GMT)
    X-Complaints-To: n...@o...pl
    NNTP-Posting-Date: Tue, 3 Aug 2010 23:45:22 +0000 (UTC)
    X-Priority: 3
    X-MSMail-Priority: Normal
    X-Newsreader: Microsoft Outlook Express 6.00.2900.5931
    X-MimeOLE: Produced By Microsoft MimeOLE V6.00.2900.5931
    Xref: news-archive.icm.edu.pl pl.comp.programming:186253
    [ ukryj nagłówki ]

    Użytkownik "Segmentation Fault" <c...@o...eu> napisał w
    wiadomości news:4c57d3da$0$2605$65785112@news.neostrada.pl...
    > Na Twoim miejscu zaczął bym od sprawdzenia jak zadziała histogram na
    > Twoich danych, przed zaprzęganiem bayesa. I tak Ci się przyda porównanie
    > z "prostszą" metodą, jak zrobisz tą bardziej skomplikowaną.

    Na razie mam zbiór treningowy niezbyt duży 12 kB i taki sam (czyli duży)
    zbiór testowy. Przy takiej ilości testowej prawdopodobieństwo bardzo szybko
    przekracza minimalny zakres liczb (staje się mniejsze nawet niż 1e-32000)
    dlatego liczby muszą być normalizowane. Dla porównania między Windows1250 a
    Latin2 wystarcza histogram jednobajtowy i niedużo polskich liter w testowym
    tekście aby doskonale rozróżnił. Należy zauważyć że te dwa standardy są
    bardzo podobne, 12 na 18 znaków jest identycznych, ale wystarczył jeden znak
    ś aby rozkład prawdopodobieństwa wyniósł 98.15% do 1.85%. Gdyby nie
    wygładzanie (dodawanie jedynki do licznika i liczby znaków do mianownika w
    celu eliminacji prawdopodobieństwa zerowego) byłoby to 100% do 0% - nic
    dziwnego skoro litera występuje w jednym zbiorze kontrolnym a w drugim nie.
    Zobaczymy jak to będzie dla Utf-8 i Utf-16. Dla tego ostatniego częstość
    występowania jednego bitu nie wystarczy, bo może być w postaci big-endian i
    little-endian ale ogólnie 1 bajtowe porównanie na tym przykładzie dobrze
    sobie radzi.

Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj


Następne wpisy z tego wątku

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: