eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programmingkompresja danych › Re: kompresja danych
  • Path: news-archive.icm.edu.pl!news2.icm.edu.pl!feed.news.interia.pl!news.nask.pl!news
    .nask.org.pl!newsfeed00.sul.t-online.de!t-online.de!border2.nntp.dca.giganews.c
    om!nntp.giganews.com!postnews.google.com!l13g2000yqb.googlegroups.com!not-for-m
    ail
    From: Mariusz Marszałkowski <m...@g...com>
    Newsgroups: pl.comp.programming
    Subject: Re: kompresja danych
    Date: Sat, 17 Oct 2009 15:05:41 -0700 (PDT)
    Organization: http://groups.google.com
    Lines: 46
    Message-ID: <4...@l...googlegroups.com>
    References: <4...@c...googlegroups.com>
    <2...@p...null.onet.pl.invalid>
    <8...@s...googlegroups.com>
    <2...@p...null.onet.pl.invalid>
    NNTP-Posting-Host: 89.229.16.190
    Mime-Version: 1.0
    Content-Type: text/plain; charset=ISO-8859-2
    Content-Transfer-Encoding: quoted-printable
    X-Trace: posting.google.com 1255817141 30605 127.0.0.1 (17 Oct 2009 22:05:41 GMT)
    X-Complaints-To: g...@g...com
    NNTP-Posting-Date: Sat, 17 Oct 2009 22:05:41 +0000 (UTC)
    Complaints-To: g...@g...com
    Injection-Info: l13g2000yqb.googlegroups.com; posting-host=89.229.16.190;
    posting-account=xjvq9QoAAAATMPC2X3btlHd_LkaJo_rj
    User-Agent: G2/1.0
    X-HTTP-UserAgent: Mozilla/5.0 (Windows; U; Windows NT 5.2; pl; rv:1.9.1.3)
    Gecko/20090824 Firefox/3.5.3,gzip(gfe),gzip(gfe)
    Xref: news-archive.icm.edu.pl pl.comp.programming:183833
    [ ukryj nagłówki ]

    On 17 Paź, 23:42, Wojciech Muła
    <w...@p...null.onet.pl.invalid> wrote:
    > Mariusz Marszałkowski <m...@g...com> wrote:
    > > > Nie słyszałem o niczym takim. A co masz w tych wierszach?
    > > > Te wiersze się powtarzają?
    >
    > > Np. jest 30 kolumn i 20mln wierszy. Dane często wyglądają tak,
    > > jakby sąsiadujące wiersze miały z dużym prawdopodobieństwem
    > > te sam wartości w kolumnach. Np. w kolumnie 3-ciej od wiersza
    > > 100 do 200 są same jedynki, w kolumnie 2 od wiersza 50 do 150
    > > są same zera. Wszystkie dane to mały podzbiór liczb całkowitych,
    > > powiedzmy o mocy kilkuset elementów.
    >
    > Jakbyś pokazał przykładowe kilka tysięcy wierszy, to można
    > by coś konkretnego doradzić.

    Coś w tym stylu: http://www.przeklej.pl/plik/nm-stats-out-rar-00044r9
    d06jo

    > RLE pewnie coś da, tylko nie
    > wiadomo czy dla wszystkich kolumn tak samo. Może pomogłaby
    > jakaś transformacja danych na poziomie kolumn albo wierszy.
    Też takie ogóle przemyślenia mam, ale żadnych konkretów.

    > Pytanie takie: spróbowałeś z istniejącymi bibliotekami
    > do kompresji, jak gzip, libzip, lzo? Może się sprawdzą.
    Na razie tylko się zastanawiam nad tym, próby zacznę za tydzień
    lub dwa. Standardowe kompresory kompresują to 20-30 krotnie.

    Pewnie najlepiej wypadnie najpierw długość serii + zamiana
    wartości na pozycję + jakaś metda LZ. Długość serii dekompresuje
    się błyskawicznie, zamiana wartości na pozycję trochę gorzej,
    LZ też jest bardzo szybkie.

    Więc pozostaje pytanie jaką metodą zmienić kolejność rekordów,
    aby jakoś kompresji była jak najlepsza.

    Pozdrawiam


    >
    > w.

Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj


Następne wpisy z tego wątku

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: