eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programmingDetekcja strony kodowej (Bayes?) › Re: Detekcja strony kodowej (Bayes?)
  • Path: news-archive.icm.edu.pl!news.icm.edu.pl!newsfeed.pionier.net.pl!3.eu.feeder.erj
    e.net!feeder.erje.net!newsreader4.netcologne.de!news.netcologne.de!news.dns-net
    z.com!news.freedyn.net!aioe.org!.POSTED.nyPK7k8oeDafdNpooDsxZQ.user.gioia.aioe.
    org!not-for-mail
    From: Mateusz Viste <m...@x...invalid>
    Newsgroups: pl.comp.programming
    Subject: Re: Detekcja strony kodowej (Bayes?)
    Date: Fri, 27 Dec 2019 15:27:25 +0100
    Organization: . . .
    Lines: 37
    Message-ID: <20191227152725.50c0c2f8@mateusz>
    References: <5e060cd2$0$511$65785112@news.neostrada.pl>
    NNTP-Posting-Host: nyPK7k8oeDafdNpooDsxZQ.user.gioia.aioe.org
    Mime-Version: 1.0
    Content-Type: text/plain; charset=UTF-8
    Content-Transfer-Encoding: quoted-printable
    X-Complaints-To: a...@a...org
    X-Notice: Filtered by postfilter v. 0.9.2
    Xref: news-archive.icm.edu.pl pl.comp.programming:214592
    [ ukryj nagłówki ]

    2019-12-27 o 14:53 +0100, Borneq napisał:
    > Mam strony kodowe 8859-*, CP12?? oraz KOI8-R.
    > Jak rozpoznać po tekście, np. za pomocą Bayesa, która to strona
    > kodowa? Jak mam język polski (tu musi być dodatkowa wiedza, jaki to
    > język) to używam tylko kilku znaków ośmiobitowych (reszta to Ascii
    > 7-bitowe) więc sprawdzam aby 8-bitowe były z tego zbioru.

    To takie sobie, bo w tekście może występować wszelkiego rodzaju
    semigrafika.

    > A jak jest z takimi językami jak rosyjski, grecki, hebrajski,
    > arabski, które mają cały alfabet zdefiniowany w wyższym Ascii?

    Moja propozycja: Wybierz losowo kilkanaście słów z tekstu. Każde słowo
    przekonwertuj do UTF-8 zakładając wszystkie możliwe strony kodowe dla
    tego języka, a następnie znajdź w słowniku czy to słowo istnieje.

    Wygrywa wariant strony kodowej o najwyższej ilości istniejących słów.

    > Jak zdetektować UTF8?

    Dokładnie tym samym sposobem - tyle że nie potrzeba tego konwertować,
    wystarczy bezpośredni wgląd do słownika dla danego języka.

    Mateusz

Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj


Następne wpisy z tego wątku

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: