-
Path: news-archive.icm.edu.pl!news.icm.edu.pl!newsfeed2.atman.pl!newsfeed.atman.pl!.P
OSTED!not-for-mail
From: Borneq <b...@a...hidden.pl>
Newsgroups: pl.comp.programming
Subject: Uczenie maszynowe - detekcja UTF
Date: Mon, 9 Jul 2018 06:01:15 +0200
Organization: ATMAN - ATM S.A.
Lines: 33
Message-ID: <phumma$n2k$1@node2.news.atman.pl>
NNTP-Posting-Host: public-gprs350543.centertel.pl
Mime-Version: 1.0
Content-Type: text/plain; charset=utf-8; format=flowed
Content-Transfer-Encoding: 8bit
X-Trace: node2.news.atman.pl 1531108874 23636 37.47.0.144 (9 Jul 2018 04:01:14 GMT)
X-Complaints-To: u...@a...pl
NNTP-Posting-Date: Mon, 9 Jul 2018 04:01:14 +0000 (UTC)
User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101
Thunderbird/52.9.0
X-Mozilla-News-Host: news://news.atman.pl:119
Content-Language: pl
Xref: news-archive.icm.edu.pl pl.comp.programming:212538
[ ukryj nagłówki ]Robię detekcję tekstu czy jest UTF8/binarnym (na razie jeden
kubełek,potem rozdzielam innym, dobrym sposobem),
czy jest UTF16 czy Little Endian czy Big Endian, czy UTF32 - tak samo.
W ten sposób że robię 4 histogramy, kolejne bajty wrzucam do 0,1,2,3
histogramu.
W histogramach zliczam nie tyle niezerowe elementy, ale niezerowe i
niezbyt małe na podstawie kwantyli.
I mam :
dla binarnego na prykład: 186,196,174,193, jeśli duży badany plik,
rośnie do 230, w przeciwnym przypadku maleje.
Dla UTF16Le:
60,1,64,1 - dla tekstu z polskimi, 66,1,65,1 dla cyrylicy (podobnie)
Dla UTF16Be:
1,60,1,64 - dla tekstu z polskimi, 1,66,1,65 dla cyrylicy, czyli tylko
zamiana parzystych z nieparzystymi.
Utf32LE:
tekst grecki: 59,1,1,1
Utf32BE: grecki 1,1,1,59
Robiłem w ten sposób że dla każdego kubełka miałem punkty i dla danej
cechy typu - parzyste podobne do nieparzystego dodawałem punkty, potem
odejmowałem. I liczyłem ilość punków w stosunku do maksymalnej ilości
dla tego kubełka.
Im mniej tekstu badam, tym histogramy mniej pomagają, ale w pewnym
momencie wystarczyło zaledwie 30(!) bajtów tekstu by poselekcjonować
wszystkie przykłady.
Ale zmieniłem przykłady i muszę na nowo dostrajać: jest A powinno być B,
więc robię cięższy test A i luzuję B,
ale znowu kłopot z C itd. Największy kłopot jest z UTF32.
Teraz przychodzę do sedna: zamiast dostrajać, jak nauczyć maszynowo?
sieci neuronowe, niekoniecznie głębokie,
Bayes?(może tak!) , maszyna wektorów nośnych SVM ?
czy jest jakaś metoda, która wskaże błąd, gdy nie podoła?
Najnowsze wątki z tej grupy
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
- Re: (PDF) Surgical Pathology of Non-neoplastic Gastrointestinal Diseases by Lizhi Zhang
- CfC 28th Ada-Europe Int. Conf. Reliable Software Technologies
- Młodzi programiści i tajna policja
- Ada 2022 Language Reference Manual to be Published by Springer
- Press Release - AEiC 2023, Ada-Europe Reliable Softw. Technol.
- Ada-Europe - AEiC 2023 early registration deadline approaching
- Ada-Europe Int.Conf. Reliable Software Technologies, AEiC 2023
- Ile cykli zajmuje mnożenie liczb 64-bitowych?
- Ideologia Polskiego Programisty wer.3
Najnowsze wątki
- 2024-04-26 Warszawa => Starszy inżynier oprogramowania (Rust) <=
- 2024-04-26 Warszawa => Senior PHP Developer (Symfony) <=
- 2024-04-26 Białystok => Business Development Manager - obszar bezpieczeństwa IT
- 2024-04-26 Bieruń => Administrator i wdrożeniowiec Lotus Notes/Domino <=
- 2024-04-26 Warszawa => Product Owner/ Product Manager <=
- 2024-04-26 Warszawa => International freight forwarder <=
- 2024-04-26 Gdańsk => Senior Software Engineer PHP (BillPro) Kontraktor <=
- 2024-04-26 Jak się płaci CIT ?
- 2024-04-26 steve balmer o iphonie w 2007
- 2024-04-25 Wrocław => Java Developer <=
- 2024-04-25 Kraków => AI Specialist <=
- 2024-04-25 Berlin => Solution Architect (secure communication and IoT solutions)
- 2024-04-25 Gdańsk => Specjalista ds. Sprzedaży <=
- 2024-04-25 Problemy TSMC cd
- 2024-04-25 Kraków => Senior PHP Developer (Symfony) <=