-
Path: news-archive.icm.edu.pl!news.icm.edu.pl!newsfeed.pionier.net.pl!feeder.erje.net
!2.eu.feeder.erje.net!feeder2.ecngs.de!ecngs!feeder.ecngs.de!border1.nntp.ams1.
giganews.com!nntp.giganews.com!newsfeed.neostrada.pl!unt-exc-02.news.neostrada.
pl!unt-spo-a-01.news.neostrada.pl!news.neostrada.pl.POSTED!not-for-mail
Newsgroups: pl.comp.programming
X-Mozilla-News-Host: news://news.neostrada.pl:119
From: Borneq <b...@a...hidden.pl>
Subject: Detekcja strony kodowej (Bayes?)
Date: Fri, 27 Dec 2019 14:53:31 +0100
User-Agent: Mozilla/5.0 (Windows NT 6.3; WOW64; rv:68.0) Gecko/20100101
Thunderbird/68.3.1
MIME-Version: 1.0
Content-Type: text/plain; charset=utf-8; format=flowed
Content-Language: pl
Content-Transfer-Encoding: 8bit
Lines: 12
Message-ID: <5e060cd2$0$511$65785112@news.neostrada.pl>
Organization: Telekomunikacja Polska
NNTP-Posting-Host: 5.184.0.104
X-Trace: 1577454803 unt-rea-b-01.news.neostrada.pl 511 5.184.0.104:29098
X-Complaints-To: a...@n...neostrada.pl
Xref: news-archive.icm.edu.pl pl.comp.programming:214591
[ ukryj nagłówki ]Mam strony kodowe 8859-*, CP12?? oraz KOI8-R.
Jak rozpoznać po tekście, np. za pomocą Bayesa, która to strona kodowa?
Jak mam język polski (tu musi być dodatkowa wiedza, jaki to język) to
używam tylko kilku znaków ośmiobitowych (reszta to Ascii 7-bitowe) więc
sprawdzam aby 8-bitowe były z tego zbioru.
A jak jest z takimi językami jak rosyjski, grecki, hebrajski, arabski,
które mają cały alfabet zdefiniowany w wyższym Ascii?
Tu potrzebna była by nauka na tekstach - bo niektóre znaki występują
rzadziej i niektóre częściej, a poza tym kontekst znaków w sylabach.
Jak zdetektować UTF8? Można próbować konwertować, i czy przekonwertuje
się bez błędów lub z bardzo małą ilością błędów. Ale zastanawiam się nad
stronami kodowymi.
Następne wpisy z tego wątku
- 27.12.19 15:27 Mateusz Viste
- 27.12.19 17:29 Borneq
- 27.12.19 20:34 Mateusz Viste
- 28.12.19 09:10 Borneq
- 08.01.20 13:19 M.M.
- 09.01.20 09:45 M.M.
Najnowsze wątki z tej grupy
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
- Re: (PDF) Surgical Pathology of Non-neoplastic Gastrointestinal Diseases by Lizhi Zhang
- CfC 28th Ada-Europe Int. Conf. Reliable Software Technologies
- Młodzi programiści i tajna policja
- Ada 2022 Language Reference Manual to be Published by Springer
- Press Release - AEiC 2023, Ada-Europe Reliable Softw. Technol.
- Ada-Europe - AEiC 2023 early registration deadline approaching
- Ada-Europe Int.Conf. Reliable Software Technologies, AEiC 2023
- Ile cykli zajmuje mnożenie liczb 64-bitowych?
- Ideologia Polskiego Programisty wer.3
Najnowsze wątki
- 2024-05-05 Taki dinks do drzwi
- 2024-05-05 Jaką kamerkę samochodową polecacie?
- 2024-05-05 przeźroczyste koszulki
- 2024-05-05 Re: Win 10/11 nie lubi OKI
- 2024-05-05 Programator czasowy TUYA.
- 2024-05-05 Na tej Chmurce uciekły mi 2 posty
- 2024-05-05 Jakiś Volume
- 2024-05-05 Komin do wiaty
- 2024-05-04 Bonusowe pytanie rozliczenie sie z elektrownia - fotowoltaika.
- 2024-05-04 Ujawnienie porady prawnej prokuraturze
- 2024-05-04 Jaką kamerkę samochodową polecacie?
- 2024-05-04 Warszawa => Spedytor międzynarodowy <=
- 2024-05-04 Warszawa => Mid PHP Developer (Laravel) <=
- 2024-05-04 Warszawa => Inżynier DevOps (projekt JP) <=
- 2024-05-04 Gdańsk => Specjalista ds. Sprzedaży <=