eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programmingDetekcja strony kodowej (Bayes?) › Re: Detekcja strony kodowej (Bayes?)
  • Path: news-archive.icm.edu.pl!news.icm.edu.pl!newsfeed.pionier.net.pl!3.eu.feeder.erj
    e.net!feeder.erje.net!newsreader4.netcologne.de!news.netcologne.de!border2.nntp
    .ams1.giganews.com!nntp.giganews.com!newsfeed.neostrada.pl!unt-exc-02.news.neos
    trada.pl!unt-spo-a-02.news.neostrada.pl!news.neostrada.pl.POSTED!not-for-mail
    Subject: Re: Detekcja strony kodowej (Bayes?)
    Newsgroups: pl.comp.programming
    References: <5e060cd2$0$511$65785112@news.neostrada.pl>
    <20191227152725.50c0c2f8@mateusz>
    From: Borneq <b...@a...hidden.pl>
    Date: Fri, 27 Dec 2019 17:29:39 +0100
    User-Agent: Mozilla/5.0 (Windows NT 6.3; WOW64; rv:68.0) Gecko/20100101
    Thunderbird/68.3.1
    MIME-Version: 1.0
    In-Reply-To: <20191227152725.50c0c2f8@mateusz>
    Content-Type: text/plain; charset=utf-8; format=flowed
    Content-Language: pl
    Content-Transfer-Encoding: 8bit
    Lines: 13
    Message-ID: <5e06316a$0$17346$65785112@news.neostrada.pl>
    Organization: Telekomunikacja Polska
    NNTP-Posting-Host: 5.184.0.104
    X-Trace: 1577464170 unt-rea-a-01.news.neostrada.pl 17346 5.184.0.104:21494
    X-Complaints-To: a...@n...neostrada.pl
    Xref: news-archive.icm.edu.pl pl.comp.programming:214593
    [ ukryj nagłówki ]

    W dniu 2019-12-27 o 15:27, Mateusz Viste pisze:
    > Moja propozycja: Wybierz losowo kilkanaście słów z tekstu. Każde słowo
    > przekonwertuj do UTF-8 zakładając wszystkie możliwe strony kodowe dla
    > tego języka, a następnie znajdź w słowniku czy to słowo istnieje.

    Muszę mieć słowniki dla poszczególnych języków.
    W każdym razie, muszę mieć niestety wiedzę jaki to język.
    Gdy mam, tablicę [256] częstotliwości i porównuję Bayesem zgodność. To
    zadziała dobrze dla takich języków jak polski czy norweski dla których
    tylko niektóre są z ogonkami.
    Czy zadziała dla rosyjskiego? Może trzeba będzie tablicy [256*256] lub
    choćby [128*128] dla dwuznaków, wtedy będą większe różnice w
    częśtotliwościach.

Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj


Następne wpisy z tego wątku

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: