eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programmingKlasyfikacja bayesowska stron kodowych › Re: Klasyfikacja bayesowska stron kodowych
  • Path: news-archive.icm.edu.pl!news.rmf.pl!nf1.ipartners.pl!ipartners.pl!news.nask.pl!
    news.nask.org.pl!newsfeed00.sul.t-online.de!t-online.de!border2.nntp.dca.gigane
    ws.com!nntp.giganews.com!nx02.iad01.newshosting.com!newshosting.com!newsfeed.ne
    ostrada.pl!unt-exc-01.news.neostrada.pl!unt-spo-b-01.news.neostrada.pl!news.neo
    strada.pl.POSTED!not-for-mail
    Date: Tue, 03 Aug 2010 10:31:22 +0200
    From: Segmentation Fault <c...@o...eu>
    User-Agent: Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.1.11) Gecko/20100713
    Thunderbird/3.0.6
    MIME-Version: 1.0
    Newsgroups: pl.comp.programming
    Subject: Re: Klasyfikacja bayesowska stron kodowych
    References: <i317b8$4q1$1@news.onet.pl> <4c54a30f$0$19161$65785112@news.neostrada.pl>
    <i3348k$779$1@news.onet.pl> <i33csp$q7p$1@news.onet.pl>
    In-Reply-To: <i33csp$q7p$1@news.onet.pl>
    Content-Type: text/plain; charset=ISO-8859-2
    Content-Transfer-Encoding: 8bit
    Lines: 32
    Message-ID: <4c57d3da$0$2605$65785112@news.neostrada.pl>
    Organization: Telekomunikacja Polska
    NNTP-Posting-Host: 79.191.156.83
    X-Trace: 1280824282 unt-rea-a-02.news.neostrada.pl 2605 79.191.156.83:48220
    X-Complaints-To: a...@n...neostrada.pl
    Xref: news-archive.icm.edu.pl pl.comp.programming:186242
    [ ukryj nagłówki ]

    On 08/01/2010 10:56 AM, Borneq wrote:
    > Użytkownik "Paweł Kierski" <n...@p...net> napisał w wiadomości
    > news:i3348k$779$1@news.onet.pl...
    >> W przypadku języka polskiego obstawiam, że może pomóc. Być może np.
    >> 'ó' będzie często poprzedzało 'w'.
    >
    > Dla polskich kodowań ISO 8859-2 Latin-2 czy Windows-1250 mamy tylko 9
    > dużych i 9 małych znaków narodowych a reszta to Ascii i wystarczy tylko
    > zbadać częstotliwość tych znaków, bo gdzie dla jednego kodowania będą te
    > znaki to dla drugiego nie będą. Można by badać częstotliwość tylko
    > znaków o kodzie >127.
    > Dla cyrylicy jest inaczej, dla różnych kodowań są to znaki o kodach >127
    > i jeden znak w jednym kodowaniu odpowiada legalnemu znakowi w innym
    > kodowaniu. Czyli jeden znak nie wystarczy, trzeba by badać częstotliwość
    > par znaków. Dodatkowa trudność dochodzi gdy mamy zbadać czy nie mamy do
    > czynienia z UTF-8. Tu mamy pary znaków, należy badać pary i uwaga - para
    > zawsze musi zaczynać się od pierwszego bajtu utf-8. Pomocne będzie
    > wyrzucenie znaków o kodach <128. Jednak tu problem; gdy mamy polskie
    > ośmiobitowe kodowanie to gdy badamy częstotliwość to nie interesują nas
    > pary "ąó" gdy te litery są oddzielone znakami Ascii ale raczej pary "ów"
    > czyli nie wyrzucamy pary, gdy którykolwiek ma kod>128 (a raczej
    > pierwszy, bo gdy drugi>128 to może być pierwszym znakiem utf-8)

    No dobra, ale to nie przeszkadza w liczeniu histogramów. Histogram musi
    być po prostu lepiej budowany, nie bajt po bajcie.
    Nie musi też przeszkadzać, że niektóre znaki w różnych kodowaniach
    znaczą coś innego. Prawdopodobnie występują z różną częstotliwością
    i to wyjdzie przy porównywaniu histogramów.

    Na Twoim miejscu zaczął bym od sprawdzenia jak zadziała histogram na
    Twoich danych, przed zaprzęganiem bayesa. I tak Ci się przyda porównanie
    z "prostszą" metodą, jak zrobisz tą bardziej skomplikowaną.

Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj


Następne wpisy z tego wątku

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: