eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programmingUczenie maszynowe - detekcja UTF › Uczenie maszynowe - detekcja UTF
  • Path: news-archive.icm.edu.pl!news.icm.edu.pl!newsfeed2.atman.pl!newsfeed.atman.pl!.P
    OSTED!not-for-mail
    From: Borneq <b...@a...hidden.pl>
    Newsgroups: pl.comp.programming
    Subject: Uczenie maszynowe - detekcja UTF
    Date: Mon, 9 Jul 2018 06:01:15 +0200
    Organization: ATMAN - ATM S.A.
    Lines: 33
    Message-ID: <phumma$n2k$1@node2.news.atman.pl>
    NNTP-Posting-Host: public-gprs350543.centertel.pl
    Mime-Version: 1.0
    Content-Type: text/plain; charset=utf-8; format=flowed
    Content-Transfer-Encoding: 8bit
    X-Trace: node2.news.atman.pl 1531108874 23636 37.47.0.144 (9 Jul 2018 04:01:14 GMT)
    X-Complaints-To: u...@a...pl
    NNTP-Posting-Date: Mon, 9 Jul 2018 04:01:14 +0000 (UTC)
    User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101
    Thunderbird/52.9.0
    X-Mozilla-News-Host: news://news.atman.pl:119
    Content-Language: pl
    Xref: news-archive.icm.edu.pl pl.comp.programming:212538
    [ ukryj nagłówki ]

    Robię detekcję tekstu czy jest UTF8/binarnym (na razie jeden
    kubełek,potem rozdzielam innym, dobrym sposobem),
    czy jest UTF16 czy Little Endian czy Big Endian, czy UTF32 - tak samo.
    W ten sposób że robię 4 histogramy, kolejne bajty wrzucam do 0,1,2,3
    histogramu.
    W histogramach zliczam nie tyle niezerowe elementy, ale niezerowe i
    niezbyt małe na podstawie kwantyli.
    I mam :
    dla binarnego na prykład: 186,196,174,193, jeśli duży badany plik,
    rośnie do 230, w przeciwnym przypadku maleje.
    Dla UTF16Le:
    60,1,64,1 - dla tekstu z polskimi, 66,1,65,1 dla cyrylicy (podobnie)
    Dla UTF16Be:
    1,60,1,64 - dla tekstu z polskimi, 1,66,1,65 dla cyrylicy, czyli tylko
    zamiana parzystych z nieparzystymi.
    Utf32LE:
    tekst grecki: 59,1,1,1
    Utf32BE: grecki 1,1,1,59
    Robiłem w ten sposób że dla każdego kubełka miałem punkty i dla danej
    cechy typu - parzyste podobne do nieparzystego dodawałem punkty, potem
    odejmowałem. I liczyłem ilość punków w stosunku do maksymalnej ilości
    dla tego kubełka.
    Im mniej tekstu badam, tym histogramy mniej pomagają, ale w pewnym
    momencie wystarczyło zaledwie 30(!) bajtów tekstu by poselekcjonować
    wszystkie przykłady.
    Ale zmieniłem przykłady i muszę na nowo dostrajać: jest A powinno być B,
    więc robię cięższy test A i luzuję B,
    ale znowu kłopot z C itd. Największy kłopot jest z UTF32.

    Teraz przychodzę do sedna: zamiast dostrajać, jak nauczyć maszynowo?
    sieci neuronowe, niekoniecznie głębokie,
    Bayes?(może tak!) , maszyna wektorów nośnych SVM ?
    czy jest jakaś metoda, która wskaże błąd, gdy nie podoła?

Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: