eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programmingDetekcja strony kodowej (Bayes?) › Re: Detekcja strony kodowej (Bayes?)
  • Data: 2019-12-27 15:27:25
    Temat: Re: Detekcja strony kodowej (Bayes?)
    Od: Mateusz Viste <m...@x...invalid> szukaj wiadomości tego autora
    [ pokaż wszystkie nagłówki ]

    2019-12-27 o 14:53 +0100, Borneq napisał:
    > Mam strony kodowe 8859-*, CP12?? oraz KOI8-R.
    > Jak rozpoznać po tekście, np. za pomocą Bayesa, która to strona
    > kodowa? Jak mam język polski (tu musi być dodatkowa wiedza, jaki to
    > język) to używam tylko kilku znaków ośmiobitowych (reszta to Ascii
    > 7-bitowe) więc sprawdzam aby 8-bitowe były z tego zbioru.

    To takie sobie, bo w tekście może występować wszelkiego rodzaju
    semigrafika.

    > A jak jest z takimi językami jak rosyjski, grecki, hebrajski,
    > arabski, które mają cały alfabet zdefiniowany w wyższym Ascii?

    Moja propozycja: Wybierz losowo kilkanaście słów z tekstu. Każde słowo
    przekonwertuj do UTF-8 zakładając wszystkie możliwe strony kodowe dla
    tego języka, a następnie znajdź w słowniku czy to słowo istnieje.

    Wygrywa wariant strony kodowej o najwyższej ilości istniejących słów.

    > Jak zdetektować UTF8?

    Dokładnie tym samym sposobem - tyle że nie potrzeba tego konwertować,
    wystarczy bezpośredni wgląd do słownika dla danego języka.

    Mateusz

Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj


Następne wpisy z tego wątku

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: