eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programmingPotyczkiRe: Potyczki
  • Path: news-archive.icm.edu.pl!agh.edu.pl!news.agh.edu.pl!newsfeed2.atman.pl!newsfeed.
    atman.pl!.POSTED!not-for-mail
    From: bartekltg <b...@g...com>
    Newsgroups: pl.comp.programming
    Subject: Re: Potyczki
    Date: Sat, 24 Nov 2012 12:36:55 +0100
    Organization: ATMAN - ATM S.A.
    Lines: 73
    Message-ID: <k8qbgp$ls0$1@node1.news.atman.pl>
    References: <k8frhm$5pg$1@node1.news.atman.pl>
    <50abbc9e$0$1214$65785112@news.neostrada.pl>
    <k8p9ei$h43$1@mx1.internetia.pl>
    NNTP-Posting-Host: 144-mi3-6.acn.waw.pl
    Mime-Version: 1.0
    Content-Type: text/plain; charset=UTF-8; format=flowed
    Content-Transfer-Encoding: 8bit
    X-Trace: node1.news.atman.pl 1353757017 22400 85.222.69.144 (24 Nov 2012 11:36:57
    GMT)
    X-Complaints-To: u...@a...pl
    NNTP-Posting-Date: Sat, 24 Nov 2012 11:36:57 +0000 (UTC)
    User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:16.0) Gecko/20121026
    Thunderbird/16.0.2
    In-Reply-To: <k8p9ei$h43$1@mx1.internetia.pl>
    Xref: news-archive.icm.edu.pl pl.comp.programming:201166
    [ ukryj nagłówki ]

    W dniu 2012-11-24 02:49, Michoo pisze:
    > On 20.11.2012 18:23, slawek wrote:
    >
    >> Aby nie być posądzanym o niekonstruktywną krytykę zapodam przykład (ktoś
    >> chciał informatycznych wyzwań, żeby coś ciekawego było itd.) - to takie
    >> zadanko:
    >
    > W ten sposób usunąłeś z zadanka jeden z ciekawych elementów, czyli "o co
    > tu chodzi".
    >
    >>
    >> "Dany jest plik długości 2 gigabajtów (tj. 2*1024*1024*1024). Wśród
    >> wszystkich możliwych podciągów 16-bajtowych (których jest 2**31 - 2^4 +
    >> 1, bo wybieramy kolejne bajty) znaleźć taki, który najczęściej występuje
    >> w tym pliku. Uwaga: dane w pliku /mogą/ być zupełnie przypadkowe, może
    >> też cały plik być wypełniony zerami itd. itp. - wszystkie złośliwe
    >> przypadki dozwolone - tzn. nie wolno zgadywać, trzeba sprawdzić.
    >> Premiowane będą rozwiązania szybkie i oszczędzające pamięć (zakładamy że
    >> mamy tylko 512 MB RAM do dyspozycji)."
    >
    > Mamy problem znalezienia dominanty w zbiorze liczb 16 bajtowych. Jeżeli
    > dobrze szacuję (a nie chce mi się poświęcać na to zadanko za dużo czasu):
    > - dla działania w miejscu mamy O(n^2)
    > - dla dodatkowej pamięci na dysku w rozmiarze 16*n schodzimy do
    > O(n*log(n)) (Ale z uwzględnieniem losowych odwołań do dysku)
    > - dla dodatkowej pamięci na dysku w rozmiarze 2*16*n schodzimy do
    > O(n*log(n)) (Z sekwencyjnym dostępem, więc wielokrotnie szybciej niż w
    > poprzednim przypadku.)

    > n to oczywiście liczba liczb w ciągu

    Być może opisuje to samo, co Ty w ostatnim punkcie.

    Mając dodatkową pamięć dysku równo pierwotnej tablicy
    (a tak naprawdę 0.5) możemy posortować tablicę
    w 4 przebiegach _sekwencyjnego_ odczytu/zapisu.

    Dominantę w posortowanej tablicy znajdujemy już
    liniowo i szybko.

    Jak sortujemy: pobieramy paczki po 512MB (albo mnijsze,
    jeśli nasze 512MB jest sztywne i nie możemy dodać tym
    czegoś lon(n)), sortujemy w RAM czymkolwiek sprawnym.

    Mamy 8 posortowanych fragmentów pliku. Łączymy je mergesortem.
    w 4, w 2, i w końcu w posortowany.

    Co istotne, merga robimy nie bezpośrednio na dysku, ale na
    buforach w ramie. Pobieramy odcinki po jakies 100MB,
    kręcimy procedurą w mergesort, jak któryś bufor się wyczerpie,
    napełniamy go ponownie kolejnymi danymi z dysku.

    Dzięki temu czytamy sekwencyjnie, dysk nie lata ciągle np między
    początkiem a środkiem pliku.

    Niestety, nadal n log (n) i n*log(n/|RAM|) operacji (Sekwencyjnych)
    na dysku, ale równoważnych przesłaniu tych kilkudziesięciu GB
    - robialne.

    BTW. w Cormenie chyba były algorytmy 'sortowanie zewnętrznego'.
    Może warto zajrzeć, bo będzie coś sprytniejszego.


    Kołaczą mi się sztuczki ze statystyką i nie jestem pewien,
    czy nie da się tego zrobić lepiej. Ale ciężko będzie,
    5 przbiegów po dysku to podejrzewam minimum.
    W koncu nawet log(n) jest większe.

    pzdr
    bartek



Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj


Następne wpisy z tego wątku

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: