-
Path: news-archive.icm.edu.pl!news2.icm.edu.pl!feed.news.interia.pl!news.nask.pl!news
.nask.org.pl!newsfeed00.sul.t-online.de!t-online.de!border2.nntp.dca.giganews.c
om!nntp.giganews.com!postnews.google.com!l13g2000yqb.googlegroups.com!not-for-m
ail
From: Mariusz Marszałkowski <m...@g...com>
Newsgroups: pl.comp.programming
Subject: Re: kompresja danych
Date: Sat, 17 Oct 2009 15:05:41 -0700 (PDT)
Organization: http://groups.google.com
Lines: 46
Message-ID: <4...@l...googlegroups.com>
References: <4...@c...googlegroups.com>
<2...@p...null.onet.pl.invalid>
<8...@s...googlegroups.com>
<2...@p...null.onet.pl.invalid>
NNTP-Posting-Host: 89.229.16.190
Mime-Version: 1.0
Content-Type: text/plain; charset=ISO-8859-2
Content-Transfer-Encoding: quoted-printable
X-Trace: posting.google.com 1255817141 30605 127.0.0.1 (17 Oct 2009 22:05:41 GMT)
X-Complaints-To: g...@g...com
NNTP-Posting-Date: Sat, 17 Oct 2009 22:05:41 +0000 (UTC)
Complaints-To: g...@g...com
Injection-Info: l13g2000yqb.googlegroups.com; posting-host=89.229.16.190;
posting-account=xjvq9QoAAAATMPC2X3btlHd_LkaJo_rj
User-Agent: G2/1.0
X-HTTP-UserAgent: Mozilla/5.0 (Windows; U; Windows NT 5.2; pl; rv:1.9.1.3)
Gecko/20090824 Firefox/3.5.3,gzip(gfe),gzip(gfe)
Xref: news-archive.icm.edu.pl pl.comp.programming:183833
[ ukryj nagłówki ]On 17 Paź, 23:42, Wojciech Muła
<w...@p...null.onet.pl.invalid> wrote:
> Mariusz Marszałkowski <m...@g...com> wrote:
> > > Nie słyszałem o niczym takim. A co masz w tych wierszach?
> > > Te wiersze się powtarzają?
>
> > Np. jest 30 kolumn i 20mln wierszy. Dane często wyglądają tak,
> > jakby sąsiadujące wiersze miały z dużym prawdopodobieństwem
> > te sam wartości w kolumnach. Np. w kolumnie 3-ciej od wiersza
> > 100 do 200 są same jedynki, w kolumnie 2 od wiersza 50 do 150
> > są same zera. Wszystkie dane to mały podzbiór liczb całkowitych,
> > powiedzmy o mocy kilkuset elementów.
>
> Jakbyś pokazał przykładowe kilka tysięcy wierszy, to można
> by coś konkretnego doradzić.
Coś w tym stylu: http://www.przeklej.pl/plik/nm-stats-out-rar-00044r9
d06jo
> RLE pewnie coś da, tylko nie
> wiadomo czy dla wszystkich kolumn tak samo. Może pomogłaby
> jakaś transformacja danych na poziomie kolumn albo wierszy.
Też takie ogóle przemyślenia mam, ale żadnych konkretów.
> Pytanie takie: spróbowałeś z istniejącymi bibliotekami
> do kompresji, jak gzip, libzip, lzo? Może się sprawdzą.
Na razie tylko się zastanawiam nad tym, próby zacznę za tydzień
lub dwa. Standardowe kompresory kompresują to 20-30 krotnie.
Pewnie najlepiej wypadnie najpierw długość serii + zamiana
wartości na pozycję + jakaś metda LZ. Długość serii dekompresuje
się błyskawicznie, zamiana wartości na pozycję trochę gorzej,
LZ też jest bardzo szybkie.
Więc pozostaje pytanie jaką metodą zmienić kolejność rekordów,
aby jakoś kompresji była jak najlepsza.
Pozdrawiam
>
> w.
Następne wpisy z tego wątku
- 18.10.09 00:55 Wojciech Muła
- 18.10.09 07:37 Mariusz Marszałkowski
- 17.10.09 14:08 Wiktor S.
- 18.10.09 17:11 Mariusz Marszałkowski
- 19.10.09 13:36 Daniel Janus
Najnowsze wątki z tej grupy
- Xiaomi [Chiny - przyp. JMJ] produkuje w całkowitych ciemnościach i bez ludzi
- Prezydent SZAP/USONA Trump ułaskawił prezydenta Hondurasu Hernandeza skazanego na 45 lat więzienia
- Rosjanie chwalą się prototypem komputera kwantowego. "Najważniejszy projekt naukowy Rosji"
- A Szwajcarzy kombinują tak: FinalSpark grows human neurons from stem cells and connects them to electrode arrays
- Re: Najgorszy język programowania
- NOWY: 2025-09-29 Alg., Strukt. Danych i Tech. Prog. - komentarz.pdf
- Na grupie comp.os.linux.advocacy CrudeSausage twierdzi, że Micro$lop używa SI do szyfrowania formatu dok. XML
- Błąd w Sofcie Powodem Wymiany 3 Duńskich Fregat Typu Iver Huitfeldt
- Grok zaczął nadużywać wulgaryzmów i wprost obrażać niektóre znane osoby
- Can you activate BMW 48V 10Ah Li-Ion battery, connecting to CAN-USB laptop interface ?
- We Wrocławiu ruszyła Odra 5, pierwszy w Polsce komputer kwantowy z nadprzewodzącymi kubitami
- Ada-Europe - AEiC 2025 early registration deadline imminent
- John Carmack twierdzi, że gdyby gry były optymalizowane, to wystarczyły by stare kompy
- Ada-Europe Int.Conf. Reliable Software Technologies, AEiC 2025
- Linuks od wer. 6.15 przestanie wspierać procesory 486 i będzie wymagać min. Pentium
Najnowsze wątki
- 2026-01-29 KSeF - 13 wątpliwości
- 2026-01-29 A ja się pochwalę
- 2026-01-29 Warszawa => Mid/Senior IT Recruiter <=
- 2026-01-29 Warszawa => Senior Java Developer <=
- 2026-01-29 Warszawa => IT Recruiter <=
- 2026-01-28 Degradacja
- 2026-01-28 Wysoki Sąd poinstruował czego unikać wyzywając Owsiaka "Równiejszego"
- 2026-01-28 Białystok => Solution Architect (Workday) - Legal Systems <=
- 2026-01-28 Białystok => Preseles Inżynier (background baz danych) <=
- 2026-01-28 Wrocław => Konsultant wdrożeniowy ERP <=
- 2026-01-28 Łódź => Microsoft Engineer <=
- 2026-01-28 Białystok => Tester manualny <=
- 2026-01-27 Tradycja ciągania posłów po sądach za wystąpienia w Sejmie będzie kontynuowana [Lepper 2]
- 2026-01-27 Pierwszy raz sprzedano więcej samochodów zeeletryfikowanych niż ice
- 2026-01-27 Elektryczny Kałasznikow




Jak kupić pierwsze mieszkanie? Eksperci podpowiadają