-
Path: news-archive.icm.edu.pl!news.icm.edu.pl!newsfeed.pionier.net.pl!3.eu.feeder.erj
e.net!feeder.erje.net!newsreader4.netcologne.de!news.netcologne.de!border2.nntp
.ams1.giganews.com!nntp.giganews.com!newsfeed.neostrada.pl!unt-exc-02.news.neos
trada.pl!unt-spo-a-02.news.neostrada.pl!news.neostrada.pl.POSTED!not-for-mail
Subject: Re: Detekcja strony kodowej (Bayes?)
Newsgroups: pl.comp.programming
References: <5e060cd2$0$511$65785112@news.neostrada.pl>
<20191227152725.50c0c2f8@mateusz>
From: Borneq <b...@a...hidden.pl>
Date: Fri, 27 Dec 2019 17:29:39 +0100
User-Agent: Mozilla/5.0 (Windows NT 6.3; WOW64; rv:68.0) Gecko/20100101
Thunderbird/68.3.1
MIME-Version: 1.0
In-Reply-To: <20191227152725.50c0c2f8@mateusz>
Content-Type: text/plain; charset=utf-8; format=flowed
Content-Language: pl
Content-Transfer-Encoding: 8bit
Lines: 13
Message-ID: <5e06316a$0$17346$65785112@news.neostrada.pl>
Organization: Telekomunikacja Polska
NNTP-Posting-Host: 5.184.0.104
X-Trace: 1577464170 unt-rea-a-01.news.neostrada.pl 17346 5.184.0.104:21494
X-Complaints-To: a...@n...neostrada.pl
Xref: news-archive.icm.edu.pl pl.comp.programming:214593
[ ukryj nagłówki ]W dniu 2019-12-27 o 15:27, Mateusz Viste pisze:
> Moja propozycja: Wybierz losowo kilkanaście słów z tekstu. Każde słowo
> przekonwertuj do UTF-8 zakładając wszystkie możliwe strony kodowe dla
> tego języka, a następnie znajdź w słowniku czy to słowo istnieje.
Muszę mieć słowniki dla poszczególnych języków.
W każdym razie, muszę mieć niestety wiedzę jaki to język.
Gdy mam, tablicę [256] częstotliwości i porównuję Bayesem zgodność. To
zadziała dobrze dla takich języków jak polski czy norweski dla których
tylko niektóre są z ogonkami.
Czy zadziała dla rosyjskiego? Może trzeba będzie tablicy [256*256] lub
choćby [128*128] dla dwuznaków, wtedy będą większe różnice w
częśtotliwościach.
Następne wpisy z tego wątku
- 27.12.19 20:34 Mateusz Viste
- 28.12.19 09:10 Borneq
- 08.01.20 13:19 M.M.
- 09.01.20 09:45 M.M.
Najnowsze wątki z tej grupy
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
- Re: (PDF) Surgical Pathology of Non-neoplastic Gastrointestinal Diseases by Lizhi Zhang
- CfC 28th Ada-Europe Int. Conf. Reliable Software Technologies
- Młodzi programiści i tajna policja
- Ada 2022 Language Reference Manual to be Published by Springer
- Press Release - AEiC 2023, Ada-Europe Reliable Softw. Technol.
- Ada-Europe - AEiC 2023 early registration deadline approaching
- Ada-Europe Int.Conf. Reliable Software Technologies, AEiC 2023
- Ile cykli zajmuje mnożenie liczb 64-bitowych?
- Ideologia Polskiego Programisty wer.3
- Ada-Europe Conference - 6 March Extended Final Deadline
Najnowsze wątki
- 2024-04-19 Gdańsk => Spedytor Międzynarodowy <=
- 2024-04-19 Kraków => Java Developer <=
- 2024-04-19 Wrocław => Lider Serwisu/Programista PLC z językiem niemieckim <=
- 2024-04-19 uczcie się Anglicy
- 2024-04-19 Co sciaga kretynow
- 2024-04-19 Uziom
- 2024-04-18 Prokurator Wrzosek jest już w porządku [Bodnatura po-praworządności]
- 2024-04-18 Warszawa => Sprzedawca usług rekrutacyjnych <=
- 2024-04-18 Jak uszkodzona sonda lambda wpływa na dawkowanie paliwa?
- 2024-04-18 Warszawa => Spedytor międzynarodowy <=
- 2024-04-18 Warszawa => International freight forwarder <=
- 2024-04-18 Warszawa => Regular Data Analytics/SQL Specialist <=
- 2024-04-18 Warszawa => Full Stack web developer (obszar .Net Core, Angular6+) <=
- 2024-04-18 (U)EFI - ksiązka, dokument
- 2024-04-18 Wrocław => Dyrektor Handlowy (branża usług/produktów IT) <=