eGospodarka.pl
bezpłatny program PIT 2019

eGospodarka.plGrupypl.comp.programming › Detekcja strony kodowej (Bayes?)
Ilość wypowiedzi w tym wątku: 7

  • 1. Data: 2019-12-27 14:53:31
    Temat: Detekcja strony kodowej (Bayes?)
    Od: Borneq <b...@a...hidden.pl>

    Mam strony kodowe 8859-*, CP12?? oraz KOI8-R.
    Jak rozpoznać po tekście, np. za pomocą Bayesa, która to strona kodowa?
    Jak mam język polski (tu musi być dodatkowa wiedza, jaki to język) to
    używam tylko kilku znaków ośmiobitowych (reszta to Ascii 7-bitowe) więc
    sprawdzam aby 8-bitowe były z tego zbioru.
    A jak jest z takimi językami jak rosyjski, grecki, hebrajski, arabski,
    które mają cały alfabet zdefiniowany w wyższym Ascii?
    Tu potrzebna była by nauka na tekstach - bo niektóre znaki występują
    rzadziej i niektóre częściej, a poza tym kontekst znaków w sylabach.
    Jak zdetektować UTF8? Można próbować konwertować, i czy przekonwertuje
    się bez błędów lub z bardzo małą ilością błędów. Ale zastanawiam się nad
    stronami kodowymi.


  • 2. Data: 2019-12-27 15:27:25
    Temat: Re: Detekcja strony kodowej (Bayes?)
    Od: Mateusz Viste <m...@x...invalid>

    2019-12-27 o 14:53 +0100, Borneq napisał:
    > Mam strony kodowe 8859-*, CP12?? oraz KOI8-R.
    > Jak rozpoznać po tekście, np. za pomocą Bayesa, która to strona
    > kodowa? Jak mam język polski (tu musi być dodatkowa wiedza, jaki to
    > język) to używam tylko kilku znaków ośmiobitowych (reszta to Ascii
    > 7-bitowe) więc sprawdzam aby 8-bitowe były z tego zbioru.

    To takie sobie, bo w tekście może występować wszelkiego rodzaju
    semigrafika.

    > A jak jest z takimi językami jak rosyjski, grecki, hebrajski,
    > arabski, które mają cały alfabet zdefiniowany w wyższym Ascii?

    Moja propozycja: Wybierz losowo kilkanaście słów z tekstu. Każde słowo
    przekonwertuj do UTF-8 zakładając wszystkie możliwe strony kodowe dla
    tego języka, a następnie znajdź w słowniku czy to słowo istnieje.

    Wygrywa wariant strony kodowej o najwyższej ilości istniejących słów.

    > Jak zdetektować UTF8?

    Dokładnie tym samym sposobem - tyle że nie potrzeba tego konwertować,
    wystarczy bezpośredni wgląd do słownika dla danego języka.

    Mateusz


  • 3. Data: 2019-12-27 17:29:39
    Temat: Re: Detekcja strony kodowej (Bayes?)
    Od: Borneq <b...@a...hidden.pl>

    W dniu 2019-12-27 o 15:27, Mateusz Viste pisze:
    > Moja propozycja: Wybierz losowo kilkanaście słów z tekstu. Każde słowo
    > przekonwertuj do UTF-8 zakładając wszystkie możliwe strony kodowe dla
    > tego języka, a następnie znajdź w słowniku czy to słowo istnieje.

    Muszę mieć słowniki dla poszczególnych języków.
    W każdym razie, muszę mieć niestety wiedzę jaki to język.
    Gdy mam, tablicę [256] częstotliwości i porównuję Bayesem zgodność. To
    zadziała dobrze dla takich języków jak polski czy norweski dla których
    tylko niektóre są z ogonkami.
    Czy zadziała dla rosyjskiego? Może trzeba będzie tablicy [256*256] lub
    choćby [128*128] dla dwuznaków, wtedy będą większe różnice w
    częśtotliwościach.


  • 4. Data: 2019-12-27 20:34:26
    Temat: Re: Detekcja strony kodowej (Bayes?)
    Od: Mateusz Viste <m...@x...invalid>

    2019-12-27 o 17:29 +0100, Borneq napisał:
    > W dniu 2019-12-27 o 15:27, Mateusz Viste pisze:
    > > Moja propozycja: Wybierz losowo kilkanaście słów z tekstu. Każde
    > > słowo przekonwertuj do UTF-8 zakładając wszystkie możliwe strony
    > > kodowe dla tego języka, a następnie znajdź w słowniku czy to słowo
    > > istnieje.
    >
    > Muszę mieć słowniki dla poszczególnych języków.

    Da się znaleźć, mnóstwo tego obecnie.

    > W każdym razie, muszę mieć niestety wiedzę jaki to język.

    To już większy problem. Szczególnie jeśli kodowanie nieznane.

    > Gdy mam, tablicę [256] częstotliwości i porównuję Bayesem zgodność.
    > To zadziała dobrze dla takich języków jak polski czy norweski dla
    > których tylko niektóre są z ogonkami.

    To może dałoby się załatwić oba problemy jednym podejściem? Wygenerować
    sobie dla każdego języka zestaw tablic częstotliwości - po jednej na
    każde dopuszczalne kodowanie, i sprawdzać swój plik na tej podstawie -
    jeśli szczęście dopisze, to mamy wykrywanie język+strona. Tylko do
    tego, jeśli to w ogóle ma statystyczną szansę zadziałać, trzeba mieć
    sporą próbkę materiału.

    Mateusz


  • 5. Data: 2019-12-28 09:10:54
    Temat: Re: Detekcja strony kodowej (Bayes?)
    Od: Borneq <b...@a...hidden.pl>

    W dniu 2019-12-27 o 20:34, Mateusz Viste pisze:
    > To może dałoby się załatwić oba problemy jednym podejściem? Wygenerować
    > sobie dla każdego języka zestaw tablic częstotliwości - po jednej na
    > każde dopuszczalne kodowanie, i sprawdzać swój plik na tej podstawie -
    > jeśli szczęście dopisze, to mamy wykrywanie język+strona. Tylko do
    > tego, jeśli to w ogóle ma statystyczną szansę zadziałać, trzeba mieć
    > sporą próbkę materiału.
    >
    > Mateusz
    >

    sprawdze czy zadziala


  • 6. Data: 2020-01-08 13:19:54
    Temat: Re: Detekcja strony kodowej (Bayes?)
    Od: "M.M." <m...@g...com>

    On Saturday, December 28, 2019 at 9:15:02 AM UTC+1, Borneq wrote:
    > W dniu 2019-12-27 o 20:34, Mateusz Viste pisze:
    > > To może dałoby się załatwić oba problemy jednym podejściem? Wygenerować
    > > sobie dla każdego języka zestaw tablic częstotliwości - po jednej na
    > > każde dopuszczalne kodowanie, i sprawdzać swój plik na tej podstawie -
    > > jeśli szczęście dopisze, to mamy wykrywanie język+strona. Tylko do
    > > tego, jeśli to w ogóle ma statystyczną szansę zadziałać, trzeba mieć
    > > sporą próbkę materiału.
    > >
    > > Mateusz
    > >
    >
    > sprawdze czy zadziala

    Z częstotliwościami pomysł wydaje się dobry. Jeśli danych jest dużo, to można
    ustawić 'dziurkę od klucza' na trzy bajty, a następnie przesuwać dziurkę od
    klucza od jeden bajt. Z każdego pliku powstanie N-2 trójek, gdzie N to rozmiar
    pliku w bajtach. Jeśli danych jest mało, to dziurkę od klucza lepiej ustawić
    na 2 bajty. Tak zebrane częstotliwości można wrzucić na do sieci neuronowej.
    Zapewne częstotliwości warto będzie normalizować przed uczeniem sieci.
    Może wystarczyć najprostsza sieć z jednym liniowym neuronem, czytaj jedna
    sieć na jedno kodowanie. Takie sieci błyskawicznie się uczą przy zastosowaniu
    kwadratowej funkcji błędu.

    Pozdrawiam



  • 7. Data: 2020-01-09 09:45:43
    Temat: Re: Detekcja strony kodowej (Bayes?)
    Od: "M.M." <m...@g...com>

    On Saturday, December 28, 2019 at 9:15:02 AM UTC+1, Borneq wrote:
    > W dniu 2019-12-27 o 20:34, Mateusz Viste pisze:
    > > To może dałoby się załatwić oba problemy jednym podejściem? Wygenerować
    > > sobie dla każdego języka zestaw tablic częstotliwości - po jednej na
    > > każde dopuszczalne kodowanie, i sprawdzać swój plik na tej podstawie -
    > > jeśli szczęście dopisze, to mamy wykrywanie język+strona. Tylko do
    > > tego, jeśli to w ogóle ma statystyczną szansę zadziałać, trzeba mieć
    > > sporą próbkę materiału.
    > >
    > > Mateusz
    > >
    >
    > sprawdze czy zadziala

    Zobacz jeszcze to:
    https://softwareengineering.stackexchange.com/questi
    ons/187169/how-to-detect-the-encoding-of-a-file

    Cytat:
    [
    Files generally indicate their encoding with a file header. There are many examples
    here. However, even reading the header you can never be sure what encoding a file is
    really using.

    For example, a file with the first three bytes 0xEF,0xBB,0xBF is probably a UTF-8
    encoded file. However, it might be an ISO-8859-1 file which happens to start with the
    characters i>>?. Or it might be a different file type entirely.
    ]

    Pozdrawiam

strony : [ 1 ]



Szukaj w grupach

bezpłatny program PIT 2019

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: