-
Path: news-archive.icm.edu.pl!news.icm.edu.pl!wsisiz.edu.pl!goblin2!goblin.stu.neva.r
u!aioe.org!.POSTED.nyPK7k8oeDafdNpooDsxZQ.user.gioia.aioe.org!not-for-mail
From: Mateusz Viste <m...@x...invalid>
Newsgroups: pl.comp.programming
Subject: Re: Detekcja strony kodowej (Bayes?)
Date: Fri, 27 Dec 2019 20:34:26 +0100
Organization: . . .
Lines: 41
Message-ID: <20191227203426.75e401f5@mateusz>
References: <5e060cd2$0$511$65785112@news.neostrada.pl>
<20191227152725.50c0c2f8@mateusz>
<5e06316a$0$17346$65785112@news.neostrada.pl>
NNTP-Posting-Host: nyPK7k8oeDafdNpooDsxZQ.user.gioia.aioe.org
Mime-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: quoted-printable
X-Complaints-To: a...@a...org
X-Notice: Filtered by postfilter v. 0.9.2
Xref: news-archive.icm.edu.pl pl.comp.programming:214594
[ ukryj nagłówki ]2019-12-27 o 17:29 +0100, Borneq napisał:
> W dniu 2019-12-27 o 15:27, Mateusz Viste pisze:
> > Moja propozycja: Wybierz losowo kilkanaście słów z tekstu. Każde
> > słowo przekonwertuj do UTF-8 zakładając wszystkie możliwe strony
> > kodowe dla tego języka, a następnie znajdź w słowniku czy to słowo
> > istnieje.
>
> Muszę mieć słowniki dla poszczególnych języków.
Da się znaleźć, mnóstwo tego obecnie.
> W każdym razie, muszę mieć niestety wiedzę jaki to język.
To już większy problem. Szczególnie jeśli kodowanie nieznane.
> Gdy mam, tablicę [256] częstotliwości i porównuję Bayesem zgodność.
> To zadziała dobrze dla takich języków jak polski czy norweski dla
> których tylko niektóre są z ogonkami.
To może dałoby się załatwić oba problemy jednym podejściem? Wygenerować
sobie dla każdego języka zestaw tablic częstotliwości - po jednej na
każde dopuszczalne kodowanie, i sprawdzać swój plik na tej podstawie -
jeśli szczęście dopisze, to mamy wykrywanie język+strona. Tylko do
tego, jeśli to w ogóle ma statystyczną szansę zadziałać, trzeba mieć
sporą próbkę materiału.
Mateusz
Następne wpisy z tego wątku
Najnowsze wątki z tej grupy
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
- Re: (PDF) Surgical Pathology of Non-neoplastic Gastrointestinal Diseases by Lizhi Zhang
- CfC 28th Ada-Europe Int. Conf. Reliable Software Technologies
- Młodzi programiści i tajna policja
- Ada 2022 Language Reference Manual to be Published by Springer
- Press Release - AEiC 2023, Ada-Europe Reliable Softw. Technol.
- Ada-Europe - AEiC 2023 early registration deadline approaching
- Ada-Europe Int.Conf. Reliable Software Technologies, AEiC 2023
- Ile cykli zajmuje mnożenie liczb 64-bitowych?
- Ideologia Polskiego Programisty wer.3
Najnowsze wątki
- 2024-04-26 steve balmer o iphonie w 2007
- 2024-04-25 Wrocław => Java Developer <=
- 2024-04-25 Kraków => AI Specialist <=
- 2024-04-25 Berlin => Solution Architect (secure communication and IoT solutions)
- 2024-04-25 Gdańsk => Specjalista ds. Sprzedaży <=
- 2024-04-25 Problemy TSMC cd
- 2024-04-25 Kraków => Senior PHP Developer (Symfony) <=
- 2024-04-25 Katowice => Service Leader/PLC Programmer with German <=
- 2024-04-25 Białystok => ERP Implementer <=
- 2024-04-25 O wisienkach
- 2024-04-25 Warszawa => Interactive/Experience Designer <=
- 2024-04-25 Białystok => Wdrożeniowiec ERP <=
- 2024-04-25 Wrocław => Head of Sales (IT services/products field) <=
- 2024-04-25 Berlin => IT Systems Administrator and Customer Support Engineer <=
- 2024-04-25 Warszawa => Technical Lead ( (Java Background)) <=