eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programmingJak efektywnie stwierdzić czy tekst jest w UTF8? › Re: Jak efektywnie stwierdzić czy tekst jest w UTF8?
  • Path: news-archive.icm.edu.pl!news.gazeta.pl!not-for-mail
    From: Paweł Kierski <n...@p...net>
    Newsgroups: pl.comp.programming
    Subject: Re: Jak efektywnie stwierdzić czy tekst jest w UTF8?
    Date: Wed, 13 Jun 2012 13:19:34 +0200
    Organization: "Portal Gazeta.pl -> http://www.gazeta.pl"
    Lines: 30
    Message-ID: <jr9t07$cv9$1@inews.gazeta.pl>
    References: <jr8els$en3$1@inews.gazeta.pl> <jr9ggv$mak$1@inews.gazeta.pl>
    NNTP-Posting-Host: 195.182.34.254
    Mime-Version: 1.0
    Content-Type: text/plain; charset=ISO-8859-2; format=flowed
    Content-Transfer-Encoding: 8bit
    X-Trace: inews.gazeta.pl 1339586375 13289 195.182.34.254 (13 Jun 2012 11:19:35 GMT)
    X-Complaints-To: u...@a...pl
    NNTP-Posting-Date: Wed, 13 Jun 2012 11:19:35 +0000 (UTC)
    X-User: pkierski
    In-Reply-To: <jr9ggv$mak$1@inews.gazeta.pl>
    User-Agent: Mozilla/5.0 (Windows NT 6.1; rv:12.0) Gecko/20120428 Thunderbird/12.0.1
    Xref: news-archive.icm.edu.pl pl.comp.programming:197880
    [ ukryj nagłówki ]

    W dniu 2012-06-13 09:46, Borneq pisze:
    > Użytkownik "Borneq" <b...@a...hidden.pl> napisał w wiadomości
    > news:jr8els$en3$1@inews.gazeta.pl...
    >> Trenuję najpierw na tekstach otrzymując tabelkę 256 częstotliwości
    > Metoda zliczań częstotliwości jest bezradna gdy mamy stwierdzić czy
    > tekst jest w Unicode czy też w Uniocode z odwróceniem bajtów. Wtedy
    > potrzebne byłyby dwie tabelki - dla parzystych i nieparzystych bajtów.
    > Ale przyjmijmy że nie rozpoznajemy Unicode 16-bitowego lecz UTF-8.
    > Wtedy zamiast częstotliwości 256 znaków będziemy mieli częstotliwość
    > 7-mio bitowych i 8-io bitowych. Oba dzielą się na wystąpienia po 7-mio
    > lub 8-io bitowym znaku.
    > Ośmiobitowe należałoby podzielić na:
    > 10xxxxxx
    > 110xxxxx
    > 1110xxxx
    > 11110xxx
    > 111110xx
    > 1111110x
    > razem z 0xxxxxxx i 1111111x będzie 8 klas.
    > Czyli 64 gdy mamy wystąpienie po jakimś znaku. Choć to nie całkiem bo po
    > 1111110x powinno być aż 5 razy 10xxxxxx

    W aktualnym zestawie UNICODE nie ma code pointów o numerach, które
    wymagają kodowania na więcej niż 4 bajtach w UTF-8. Wystarczą tylko
    pierwsze 3 klasy.


    --
    Paweł Kierski
    n...@p...net

Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj


Następne wpisy z tego wątku

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: