eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programmingDetekcja strony kodowej (Bayes?) › Re: Detekcja strony kodowej (Bayes?)
  • Path: news-archive.icm.edu.pl!news.icm.edu.pl!wsisiz.edu.pl!goblin2!goblin.stu.neva.r
    u!aioe.org!.POSTED.nyPK7k8oeDafdNpooDsxZQ.user.gioia.aioe.org!not-for-mail
    From: Mateusz Viste <m...@x...invalid>
    Newsgroups: pl.comp.programming
    Subject: Re: Detekcja strony kodowej (Bayes?)
    Date: Fri, 27 Dec 2019 20:34:26 +0100
    Organization: . . .
    Lines: 41
    Message-ID: <20191227203426.75e401f5@mateusz>
    References: <5e060cd2$0$511$65785112@news.neostrada.pl>
    <20191227152725.50c0c2f8@mateusz>
    <5e06316a$0$17346$65785112@news.neostrada.pl>
    NNTP-Posting-Host: nyPK7k8oeDafdNpooDsxZQ.user.gioia.aioe.org
    Mime-Version: 1.0
    Content-Type: text/plain; charset=UTF-8
    Content-Transfer-Encoding: quoted-printable
    X-Complaints-To: a...@a...org
    X-Notice: Filtered by postfilter v. 0.9.2
    Xref: news-archive.icm.edu.pl pl.comp.programming:214594
    [ ukryj nagłówki ]

    2019-12-27 o 17:29 +0100, Borneq napisał:
    > W dniu 2019-12-27 o 15:27, Mateusz Viste pisze:
    > > Moja propozycja: Wybierz losowo kilkanaście słów z tekstu. Każde
    > > słowo przekonwertuj do UTF-8 zakładając wszystkie możliwe strony
    > > kodowe dla tego języka, a następnie znajdź w słowniku czy to słowo
    > > istnieje.
    >
    > Muszę mieć słowniki dla poszczególnych języków.

    Da się znaleźć, mnóstwo tego obecnie.

    > W każdym razie, muszę mieć niestety wiedzę jaki to język.

    To już większy problem. Szczególnie jeśli kodowanie nieznane.

    > Gdy mam, tablicę [256] częstotliwości i porównuję Bayesem zgodność.
    > To zadziała dobrze dla takich języków jak polski czy norweski dla
    > których tylko niektóre są z ogonkami.

    To może dałoby się załatwić oba problemy jednym podejściem? Wygenerować
    sobie dla każdego języka zestaw tablic częstotliwości - po jednej na
    każde dopuszczalne kodowanie, i sprawdzać swój plik na tej podstawie -
    jeśli szczęście dopisze, to mamy wykrywanie język+strona. Tylko do
    tego, jeśli to w ogóle ma statystyczną szansę zadziałać, trzeba mieć
    sporą próbkę materiału.

    Mateusz

Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj


Następne wpisy z tego wątku

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: