-
Path: news-archive.icm.edu.pl!news.icm.edu.pl!newsfeed.pionier.net.pl!feeder.erje.net
!2.eu.feeder.erje.net!feeder2.ecngs.de!ecngs!feeder.ecngs.de!border1.nntp.ams1.
giganews.com!nntp.giganews.com!newsfeed.neostrada.pl!unt-exc-02.news.neostrada.
pl!unt-spo-a-01.news.neostrada.pl!news.neostrada.pl.POSTED!not-for-mail
Newsgroups: pl.comp.programming
X-Mozilla-News-Host: news://news.neostrada.pl:119
From: Borneq <b...@a...hidden.pl>
Subject: Detekcja strony kodowej (Bayes?)
Date: Fri, 27 Dec 2019 14:53:31 +0100
User-Agent: Mozilla/5.0 (Windows NT 6.3; WOW64; rv:68.0) Gecko/20100101
Thunderbird/68.3.1
MIME-Version: 1.0
Content-Type: text/plain; charset=utf-8; format=flowed
Content-Language: pl
Content-Transfer-Encoding: 8bit
Lines: 12
Message-ID: <5e060cd2$0$511$65785112@news.neostrada.pl>
Organization: Telekomunikacja Polska
NNTP-Posting-Host: 5.184.0.104
X-Trace: 1577454803 unt-rea-b-01.news.neostrada.pl 511 5.184.0.104:29098
X-Complaints-To: a...@n...neostrada.pl
Xref: news-archive.icm.edu.pl pl.comp.programming:214591
[ ukryj nagłówki ]Mam strony kodowe 8859-*, CP12?? oraz KOI8-R.
Jak rozpoznać po tekście, np. za pomocą Bayesa, która to strona kodowa?
Jak mam język polski (tu musi być dodatkowa wiedza, jaki to język) to
używam tylko kilku znaków ośmiobitowych (reszta to Ascii 7-bitowe) więc
sprawdzam aby 8-bitowe były z tego zbioru.
A jak jest z takimi językami jak rosyjski, grecki, hebrajski, arabski,
które mają cały alfabet zdefiniowany w wyższym Ascii?
Tu potrzebna była by nauka na tekstach - bo niektóre znaki występują
rzadziej i niektóre częściej, a poza tym kontekst znaków w sylabach.
Jak zdetektować UTF8? Można próbować konwertować, i czy przekonwertuje
się bez błędów lub z bardzo małą ilością błędów. Ale zastanawiam się nad
stronami kodowymi.
Następne wpisy z tego wątku
- 27.12.19 15:27 Mateusz Viste
- 27.12.19 17:29 Borneq
- 27.12.19 20:34 Mateusz Viste
- 28.12.19 09:10 Borneq
- 08.01.20 13:19 M.M.
- 09.01.20 09:45 M.M.
Najnowsze wątki z tej grupy
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
- Re: (PDF) Surgical Pathology of Non-neoplastic Gastrointestinal Diseases by Lizhi Zhang
- CfC 28th Ada-Europe Int. Conf. Reliable Software Technologies
- Młodzi programiści i tajna policja
- Ada 2022 Language Reference Manual to be Published by Springer
- Press Release - AEiC 2023, Ada-Europe Reliable Softw. Technol.
- Ada-Europe - AEiC 2023 early registration deadline approaching
- Ada-Europe Int.Conf. Reliable Software Technologies, AEiC 2023
- Ile cykli zajmuje mnożenie liczb 64-bitowych?
- Ideologia Polskiego Programisty wer.3
- Ada-Europe Conference - 6 March Extended Final Deadline
Najnowsze wątki
- 2024-04-19 nakupcie sobie Borygo
- 2024-04-19 Lejek + zdalne zarządzanie, coś jak telemetria, jaka oferta.
- 2024-04-19 Warszawa => Senior Account Manager <=
- 2024-04-19 Katowice => Technical Leader (Java Background) <=
- 2024-04-19 Wrocław => Dyrektor Sprzedaży (branża usług/produktów IT) <=
- 2024-04-19 Białystok => Full Stack web developer (obszar .Net Core, Angular6+) <
- 2024-04-19 Samochód w ogniu
- 2024-04-19 Warszawa => Inżynier DevOps (projekt JP) <=
- 2024-04-19 Gdańsk => Spedytor Międzynarodowy <=
- 2024-04-19 Kraków => Java Developer <=
- 2024-04-19 Wrocław => Lider Serwisu/Programista PLC z językiem niemieckim <=
- 2024-04-19 uczcie się Anglicy
- 2024-04-19 Co sciaga kretynow
- 2024-04-19 Uziom
- 2024-04-18 Prokurator Wrzosek jest już w porządku [Bodnatura po-praworządności]