eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programmingKlasyfikacja bayesowska stron kodowych › Re: Klasyfikacja bayesowska stron kodowych
  • Path: news-archive.icm.edu.pl!news.gazeta.pl!newsfeed.pionier.net.pl!news.glorb.com!b
    order1.nntp.dca.giganews.com!nntp.giganews.com!npeer01.iad.highwinds-media.com!
    news.highwinds-media.com!feed-me.highwinds-media.com!nx02.iad01.newshosting.com
    !newshosting.com!newsfeed.neostrada.pl!unt-exc-02.news.neostrada.pl!unt-spo-b-0
    1.news.neostrada.pl!news.neostrada.pl.POSTED!not-for-mail
    Date: Wed, 04 Aug 2010 14:33:31 +0200
    From: Segmentation Fault <c...@o...eu>
    User-Agent: Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.1.11) Gecko/20100713
    Thunderbird/3.0.6
    MIME-Version: 1.0
    Newsgroups: pl.comp.programming
    Subject: Re: Klasyfikacja bayesowska stron kodowych
    References: <i317b8$4q1$1@news.onet.pl> <4c54a30f$0$19161$65785112@news.neostrada.pl>
    <i3348k$779$1@news.onet.pl> <i33csp$q7p$1@news.onet.pl>
    <4c57d3da$0$2605$65785112@news.neostrada.pl> <i3a9mh$rfm$1@news.onet.pl>
    In-Reply-To: <i3a9mh$rfm$1@news.onet.pl>
    Content-Type: text/plain; charset=ISO-8859-2
    Content-Transfer-Encoding: 8bit
    Lines: 24
    Message-ID: <4c595e1a$0$2604$65785112@news.neostrada.pl>
    Organization: Telekomunikacja Polska
    NNTP-Posting-Host: 83.20.251.100
    X-Trace: 1280925210 unt-rea-a-02.news.neostrada.pl 2604 83.20.251.100:55849
    X-Complaints-To: a...@n...neostrada.pl
    Xref: news-archive.icm.edu.pl pl.comp.programming:186257
    [ ukryj nagłówki ]

    On 08/04/2010 01:45 AM, Borneq wrote:
    > Użytkownik "Segmentation Fault" <c...@o...eu> napisał w
    > wiadomości news:4c57d3da$0$2605$65785112@news.neostrada.pl...
    >> Na Twoim miejscu zaczął bym od sprawdzenia jak zadziała histogram na
    >> Twoich danych, przed zaprzęganiem bayesa. I tak Ci się przyda porównanie
    >> z "prostszą" metodą, jak zrobisz tą bardziej skomplikowaną.
    >
    > Na razie mam zbiór treningowy niezbyt duży 12 kB i taki sam (czyli duży)
    > zbiór testowy. Przy takiej ilości testowej prawdopodobieństwo bardzo
    > szybko przekracza minimalny zakres liczb (staje się mniejsze nawet niż
    > 1e-32000) dlatego liczby muszą być normalizowane.

    A jak liczysz i porównujesz histogramy ?

    Ja bym policzył "ile każdego znaczka", potem bym znormalizował
    ( podzielił wystąpienia każdego znaczka przez ilość wszystkich znaczków
    w tekście ). Przy 12.000 znaków "najmniejsza" liczba to będzie 0.000083,
    więc jeszcze mieści się we float, na pewno w double.

    Potem te znormalizowane histogramy porównywał bym np. licząc korelację
    ( albo poeksperymentował bym z innymi metodami; wzorki tu:
    http://opencv.willowgarage.com/documentation/histogr
    ams.html#comparehist
    )

Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj


Następne wpisy z tego wątku

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: