-
Path: news-archive.icm.edu.pl!news.icm.edu.pl!newsfeed.pionier.net.pl!3.eu.feeder.erj
e.net!feeder.erje.net!newsreader4.netcologne.de!news.netcologne.de!news.dns-net
z.com!news.freedyn.net!aioe.org!.POSTED.nyPK7k8oeDafdNpooDsxZQ.user.gioia.aioe.
org!not-for-mail
From: Mateusz Viste <m...@x...invalid>
Newsgroups: pl.comp.programming
Subject: Re: Detekcja strony kodowej (Bayes?)
Date: Fri, 27 Dec 2019 15:27:25 +0100
Organization: . . .
Lines: 37
Message-ID: <20191227152725.50c0c2f8@mateusz>
References: <5e060cd2$0$511$65785112@news.neostrada.pl>
NNTP-Posting-Host: nyPK7k8oeDafdNpooDsxZQ.user.gioia.aioe.org
Mime-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: quoted-printable
X-Complaints-To: a...@a...org
X-Notice: Filtered by postfilter v. 0.9.2
Xref: news-archive.icm.edu.pl pl.comp.programming:214592
[ ukryj nagłówki ]2019-12-27 o 14:53 +0100, Borneq napisał:
> Mam strony kodowe 8859-*, CP12?? oraz KOI8-R.
> Jak rozpoznać po tekście, np. za pomocą Bayesa, która to strona
> kodowa? Jak mam język polski (tu musi być dodatkowa wiedza, jaki to
> język) to używam tylko kilku znaków ośmiobitowych (reszta to Ascii
> 7-bitowe) więc sprawdzam aby 8-bitowe były z tego zbioru.
To takie sobie, bo w tekście może występować wszelkiego rodzaju
semigrafika.
> A jak jest z takimi językami jak rosyjski, grecki, hebrajski,
> arabski, które mają cały alfabet zdefiniowany w wyższym Ascii?
Moja propozycja: Wybierz losowo kilkanaście słów z tekstu. Każde słowo
przekonwertuj do UTF-8 zakładając wszystkie możliwe strony kodowe dla
tego języka, a następnie znajdź w słowniku czy to słowo istnieje.
Wygrywa wariant strony kodowej o najwyższej ilości istniejących słów.
> Jak zdetektować UTF8?
Dokładnie tym samym sposobem - tyle że nie potrzeba tego konwertować,
wystarczy bezpośredni wgląd do słownika dla danego języka.
Mateusz
Następne wpisy z tego wątku
- 27.12.19 17:29 Borneq
- 27.12.19 20:34 Mateusz Viste
- 28.12.19 09:10 Borneq
- 08.01.20 13:19 M.M.
- 09.01.20 09:45 M.M.
Najnowsze wątki z tej grupy
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
- Re: (PDF) Surgical Pathology of Non-neoplastic Gastrointestinal Diseases by Lizhi Zhang
- CfC 28th Ada-Europe Int. Conf. Reliable Software Technologies
- Młodzi programiści i tajna policja
- Ada 2022 Language Reference Manual to be Published by Springer
- Press Release - AEiC 2023, Ada-Europe Reliable Softw. Technol.
- Ada-Europe - AEiC 2023 early registration deadline approaching
- Ada-Europe Int.Conf. Reliable Software Technologies, AEiC 2023
- Ile cykli zajmuje mnożenie liczb 64-bitowych?
- Ideologia Polskiego Programisty wer.3
Najnowsze wątki
- 2024-05-05 Taki dinks do drzwi
- 2024-05-05 Jaką kamerkę samochodową polecacie?
- 2024-05-05 przeźroczyste koszulki
- 2024-05-05 Re: Win 10/11 nie lubi OKI
- 2024-05-05 Programator czasowy TUYA.
- 2024-05-05 Na tej Chmurce uciekły mi 2 posty
- 2024-05-05 Jakiś Volume
- 2024-05-05 Komin do wiaty
- 2024-05-04 Bonusowe pytanie rozliczenie sie z elektrownia - fotowoltaika.
- 2024-05-04 Ujawnienie porady prawnej prokuraturze
- 2024-05-04 Jaką kamerkę samochodową polecacie?
- 2024-05-04 Warszawa => Spedytor międzynarodowy <=
- 2024-05-04 Warszawa => Mid PHP Developer (Laravel) <=
- 2024-05-04 Warszawa => Inżynier DevOps (projekt JP) <=
- 2024-05-04 Gdańsk => Specjalista ds. Sprzedaży <=