eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programmingkompresja danych › Re: kompresja danych
  • Path: news-archive.icm.edu.pl!news.gazeta.pl!newsfeed.pionier.net.pl!news.glorb.com!p
    ostnews.google.com!s31g2000yqs.googlegroups.com!not-for-mail
    From: Mariusz Marszałkowski <m...@g...com>
    Newsgroups: pl.comp.programming
    Subject: Re: kompresja danych
    Date: Sat, 17 Oct 2009 14:09:53 -0700 (PDT)
    Organization: http://groups.google.com
    Lines: 37
    Message-ID: <8...@s...googlegroups.com>
    References: <4...@c...googlegroups.com>
    <2...@p...null.onet.pl.invalid>
    NNTP-Posting-Host: 89.229.16.190
    Mime-Version: 1.0
    Content-Type: text/plain; charset=ISO-8859-2
    Content-Transfer-Encoding: quoted-printable
    X-Trace: posting.google.com 1255813793 8161 127.0.0.1 (17 Oct 2009 21:09:53 GMT)
    X-Complaints-To: g...@g...com
    NNTP-Posting-Date: Sat, 17 Oct 2009 21:09:53 +0000 (UTC)
    Complaints-To: g...@g...com
    Injection-Info: s31g2000yqs.googlegroups.com; posting-host=89.229.16.190;
    posting-account=xjvq9QoAAAATMPC2X3btlHd_LkaJo_rj
    User-Agent: G2/1.0
    X-HTTP-UserAgent: Mozilla/5.0 (Windows; U; Windows NT 5.2; pl; rv:1.9.1.3)
    Gecko/20090824 Firefox/3.5.3,gzip(gfe),gzip(gfe)
    Xref: news-archive.icm.edu.pl pl.comp.programming:183831
    [ ukryj nagłówki ]

    On 17 Paź, 20:34, Wojciech Muła
    <w...@p...null.onet.pl.invalid> wrote:
    > Mariusz Marszałkowski <m...@g...com> wrote:
    > > Są jakieś specjalne algorytmy do kompresji tabel danych, w których
    > > jest stała długość wiersza, a kolejność wierszy nie ma znaczenia?
    >
    > > Oznacza to, że kompresor może dowolnie zmieniać kolejność
    > > wierszy i podczas dekompresji nie musi odtworzyć pierwotenj
    > > kolejności.
    >
    > Nie słyszałem o niczym takim. A co masz w tych wierszach?
    > Te wiersze się powtarzają?

    Np. jest 30 kolumn i 20mln wierszy. Dane często wyglądają tak,
    jakby sąsiadujące wiersze miały z dużym prawdopodobieństwem
    te sam wartości w kolumnach. Np. w kolumnie 3-ciej od wiersza
    100 do 200 są same jedynki, w kolumnie 2 od wiersza 50 do 150
    są same zera. Wszystkie dane to mały podzbiór liczb całkowitych,
    powiedzmy o mocy kilkuset elementów.

    Uważam że można do tego podejść na dwa sposoby:
    1) Skompresować każdą kolumnę osobno, podejrzewam że prosta
    metoda długości serii skompresuje niektóre kolumny 100 krotnie.
    2) Jakoś specjalnie posortować wiersze, aby dane powtarzające się
    były blisko siebie
    3) Można połączyć obie metody, najpierw jakoś posortować wiersze,
    a później sortować każdą kolumnę niezależnie.

    Kompresja może trwać dowolnie długo, nawet całą dobę, ale dekompresja
    musi być bardzo szybka, gdyż skompresowane dane trafią do pamięci
    RAM i będą dekompresowane w każdej iteracji algorytmu.

    Pozdrawiam serdecznie

Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj


Następne wpisy z tego wątku

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: