-
Data: 2019-12-27 15:27:25
Temat: Re: Detekcja strony kodowej (Bayes?)
Od: Mateusz Viste <m...@x...invalid> szukaj wiadomości tego autora
[ pokaż wszystkie nagłówki ]2019-12-27 o 14:53 +0100, Borneq napisał:
> Mam strony kodowe 8859-*, CP12?? oraz KOI8-R.
> Jak rozpoznać po tekście, np. za pomocą Bayesa, która to strona
> kodowa? Jak mam język polski (tu musi być dodatkowa wiedza, jaki to
> język) to używam tylko kilku znaków ośmiobitowych (reszta to Ascii
> 7-bitowe) więc sprawdzam aby 8-bitowe były z tego zbioru.
To takie sobie, bo w tekście może występować wszelkiego rodzaju
semigrafika.
> A jak jest z takimi językami jak rosyjski, grecki, hebrajski,
> arabski, które mają cały alfabet zdefiniowany w wyższym Ascii?
Moja propozycja: Wybierz losowo kilkanaście słów z tekstu. Każde słowo
przekonwertuj do UTF-8 zakładając wszystkie możliwe strony kodowe dla
tego języka, a następnie znajdź w słowniku czy to słowo istnieje.
Wygrywa wariant strony kodowej o najwyższej ilości istniejących słów.
> Jak zdetektować UTF8?
Dokładnie tym samym sposobem - tyle że nie potrzeba tego konwertować,
wystarczy bezpośredni wgląd do słownika dla danego języka.
Mateusz
Następne wpisy z tego wątku
- 27.12.19 17:29 Borneq
- 27.12.19 20:34 Mateusz Viste
- 28.12.19 09:10 Borneq
- 08.01.20 13:19 M.M.
- 09.01.20 09:45 M.M.
Najnowsze wątki z tej grupy
- Do czego nadaje się QDockWidget z bibl. Qt?
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
- Re: (PDF) Surgical Pathology of Non-neoplastic Gastrointestinal Diseases by Lizhi Zhang
- CfC 28th Ada-Europe Int. Conf. Reliable Software Technologies
- Młodzi programiści i tajna policja
- Ada 2022 Language Reference Manual to be Published by Springer
- Press Release - AEiC 2023, Ada-Europe Reliable Softw. Technol.
- Ada-Europe - AEiC 2023 early registration deadline approaching
- Ada-Europe Int.Conf. Reliable Software Technologies, AEiC 2023
- Ile cykli zajmuje mnożenie liczb 64-bitowych?
Najnowsze wątki
- 2024-05-18 Warszawa => Software .Net Developer <=
- 2024-05-18 Warszawa => Mid/Senior QA Engineer <=
- 2024-05-18 Ulm => Solution Architect (sichere Kommunikation und IoT-Loesungen <=
- 2024-05-18 Katowice => Head of Virtualization Platform Management and Operating S
- 2024-05-18 Warszawa => SAP WM Consultant / Execution <=
- 2024-05-18 Wrocław => Consultant/Implementer Comarch ERP XL <=
- 2024-05-18 Gdańsk => Head of International Freight Forwarding Department <=
- 2024-05-18 Warszawa => Account Manager (Recruitment Services) <=
- 2024-05-18 Łódź => Salesperson - CRM Systems <=
- 2024-05-18 Łódź => Handlowiec - Systemy CRM <=
- 2024-05-17 ZŁOMNIK o pracy w TVN TURBO, nowych przepisach i współczesnej motoryzacji. Turbo Taryfa!
- 2024-05-17 Białystok => DevOps Engineer Conexa First (Contractor) <=
- 2024-05-17 Warszawa => Starszy inżynier oprogramowania (Rust) <=
- 2024-05-17 Zabrze => Junior HelpDesk <=
- 2024-05-17 Bieruń => Administrator i wdrożeniowiec Lotus Notes/Domino <=