-
Data: 2009-10-17 22:05:41
Temat: Re: kompresja danych
Od: Mariusz Marszałkowski <m...@g...com> szukaj wiadomości tego autora
[ pokaż wszystkie nagłówki ]On 17 Paź, 23:42, Wojciech Muła
<w...@p...null.onet.pl.invalid> wrote:
> Mariusz Marszałkowski <m...@g...com> wrote:
> > > Nie słyszałem o niczym takim. A co masz w tych wierszach?
> > > Te wiersze się powtarzają?
>
> > Np. jest 30 kolumn i 20mln wierszy. Dane często wyglądają tak,
> > jakby sąsiadujące wiersze miały z dużym prawdopodobieństwem
> > te sam wartości w kolumnach. Np. w kolumnie 3-ciej od wiersza
> > 100 do 200 są same jedynki, w kolumnie 2 od wiersza 50 do 150
> > są same zera. Wszystkie dane to mały podzbiór liczb całkowitych,
> > powiedzmy o mocy kilkuset elementów.
>
> Jakbyś pokazał przykładowe kilka tysięcy wierszy, to można
> by coś konkretnego doradzić.
Coś w tym stylu: http://www.przeklej.pl/plik/nm-stats-out-rar-00044r9
d06jo
> RLE pewnie coś da, tylko nie
> wiadomo czy dla wszystkich kolumn tak samo. Może pomogłaby
> jakaś transformacja danych na poziomie kolumn albo wierszy.
Też takie ogóle przemyślenia mam, ale żadnych konkretów.
> Pytanie takie: spróbowałeś z istniejącymi bibliotekami
> do kompresji, jak gzip, libzip, lzo? Może się sprawdzą.
Na razie tylko się zastanawiam nad tym, próby zacznę za tydzień
lub dwa. Standardowe kompresory kompresują to 20-30 krotnie.
Pewnie najlepiej wypadnie najpierw długość serii + zamiana
wartości na pozycję + jakaś metda LZ. Długość serii dekompresuje
się błyskawicznie, zamiana wartości na pozycję trochę gorzej,
LZ też jest bardzo szybkie.
Więc pozostaje pytanie jaką metodą zmienić kolejność rekordów,
aby jakoś kompresji była jak najlepsza.
Pozdrawiam
>
> w.
Następne wpisy z tego wątku
- 18.10.09 00:55 Wojciech Muła
- 18.10.09 07:37 Mariusz Marszałkowski
- 17.10.09 14:08 Wiktor S.
- 18.10.09 17:11 Mariusz Marszałkowski
- 19.10.09 13:36 Daniel Janus
Najnowsze wątki z tej grupy
- Do czego nadaje się QDockWidget z bibl. Qt?
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
- Re: (PDF) Surgical Pathology of Non-neoplastic Gastrointestinal Diseases by Lizhi Zhang
- CfC 28th Ada-Europe Int. Conf. Reliable Software Technologies
- Młodzi programiści i tajna policja
- Ada 2022 Language Reference Manual to be Published by Springer
- Press Release - AEiC 2023, Ada-Europe Reliable Softw. Technol.
- Ada-Europe - AEiC 2023 early registration deadline approaching
- Ada-Europe Int.Conf. Reliable Software Technologies, AEiC 2023
- Ile cykli zajmuje mnożenie liczb 64-bitowych?
Najnowsze wątki
- 2024-05-26 O co chodzi?
- 2024-05-26 PJ autobus-tramwaj
- 2024-05-26 Renault Trafic i lampka z czerwonym STOP
- 2024-05-26 cena pięciocyfrowa
- 2024-05-26 Re: Jak dobra KE "okrada" złą Rosję "dla Ukrainy"
- 2024-05-25 supercap
- 2024-05-25 Sulzbach => Technischer Rollouter (d/m/w) <=
- 2024-05-25 Warszawa => Senior Account Manager <=
- 2024-05-25 Warszawa => Mid PHP Developer (Laravel) <=
- 2024-05-25 Warszawa => Mid PHP Developer (Laravel) <=
- 2024-05-25 Warszawa => Interactive/Experience Designer <=
- 2024-05-25 Warszawa => Key Account Manager <=
- 2024-05-25 Warszawa => SAP WM Consultant / Execution <=
- 2024-05-25 Warszawa => Key Account Manager <=
- 2024-05-25 Re: znów ten wrocław