-
Data: 2013-04-18 15:24:56
Temat: Re: Podpis cyfrowy większej ilości podmiotów
Od: Edek <e...@g...com> szukaj wiadomości tego autora
[ pokaż wszystkie nagłówki ]Dnia Thu, 18 Apr 2013 14:46:35 +0200 po głębokim namyśle bartekltg rzekł:
> W dniu 2013-04-18 13:13, Edek pisze:
>> http://blogs.mathworks.com/loren/2011/07/18/a-mandel
brot-set-on-the-
gpu/
>>
>> Mówi o 340x szybciej w Matlabie.
>
> Strasznie tu "oszukują". Porównują kod dla gpu napisany w c++
> wg rozważanego w watku algorytmu (na razie ok) z taką samą iteracją na
> macierzach... ale bez warunku "norma>2 to nie licz dalej"
> i wszystkie piksele mieli maxIterations+1 razy;-) To nasze grupowe
> algorytmy będą od tego kilka-kilkanaście razy szybsze.
Matlab to nie pisanie bezpośrednio na gpu, nawet nie chciało
mi się specjalnie czytać, fir się pytał "ile razy szybciej",
to mu podałem żródło :)
> Bez zmiany algorytmu GPU przyspieszyło im 16 razy,
> i tego rzędu przyspieszenia (z przeczuciem na ciut mniejsze)
> bym się spodziewał w porównaniu cpu/gpu.
Nie wiem jakie masz doświadczenie z gpu, ale tam oszacowuje się
algorytmy przez najniższą z przepustowości - np. nominalnie
we floatach przepustowość RAM jest ~70 razy mniejsza od obliczeniowej,
zależy oczywiście od tego ile się wczytuje i ile wyników się zapisuje
i czy dostęp do ram jest uszeregowany czy nie.
W Mandelbrot przepustowość RAM jest prawie pomijalna, zostaje
obliczeniowa. To się naprawdę bierze ze specyfikacji i wychodzi
dokładnie czego się człowiek spodziewa, jeżeli się dobrze policzy.
Obliczeniową liczy się na podstawie Occupancy - jest do tego
kalkulator i profiler. Occupancy jest miarą "zużycia potencjału"
rdzeni - jest kilka ograniczeń typu ilość rejestrów, spills,
liczby blocków i wątków itp. Między innymi w Mandelbrot siłą
rzeczy część pary idzie w gwizdek jeżeli sąsiednie pixele
policzą się w mniejszej ilośći iteracji, ale ciśnienia
na inne limity nie widzę na dzisiejszych kartach.
I teraz tak:
mając niezależne pętle dla sąsiednich pixeli przydaje się
instrukcja "any" - jeżeli żaden z wątków nie ma nic do liczenia
kończy się 16x16 pixeli czy ile ich tam razem będzie optymalnie
sprawdzając po każdej iteracji.
Pytanie do Ciebie byłoby takie: jak dobrać ilość/kształt pixeli
przetwarzanych razem i jak policzyć ilość marnowanej mocy
obliczeniowej przez blok pixeli, z których część kończy
iteracje wcześniej, zakladająć że "any" nie kosztuje
mocy obliczeniowej - inne bloki w tym czasie liczą -
tylko traci się na czas na pixele "już policzone" w bloku.
Założenie trochę naciągane, ale niech będzie.
Serio, takie obliczenie wydajności gpu ma sens. Gpu w
przeciwieństwie do złożonych Inteli jest przewidywalne.
Zaczęło mieć odchyły tak około GTX 460/465, oczywiście
w dół.
Ja się nie podejmuję, ale widzę że praktykujesz matmę mocniej
niż ja, więc jak ci się chce to powiedz jak dobrać optymalne
parametry, pewnie na podstawie rozkładów ilości iteracji.
Optymalne wymiary bloku i oszacowanie "strat" przepustowości.
Bo detale doboru funkcji (abs/norm/dzielenie.vs.mnożenie)
i oczekiwanej prezyzji są w instrukcji.
Mogę co najwyżej obiecać, że przetestuję wyniki, to prosty
algorytm.
--
Edek
Następne wpisy z tego wątku
- 18.04.13 15:43 bartekltg
- 18.04.13 16:41 Edek
- 18.04.13 17:18 M.M.
- 18.04.13 17:35 Edek
- 18.04.13 17:36 bartekltg
- 18.04.13 18:05 firr kenobi
- 18.04.13 18:11 3d
- 18.04.13 22:58 3d
- 18.04.13 23:05 3d
- 19.04.13 20:54 M.M.
- 19.04.13 21:43 firr kenobi
- 20.04.13 09:43 M.M.
- 21.04.13 17:58 Edek
- 21.04.13 19:31 Edek
- 22.04.13 01:26 3d
Najnowsze wątki z tej grupy
- Xiaomi [Chiny - przyp. JMJ] produkuje w całkowitych ciemnościach i bez ludzi
- Prezydent SZAP/USONA Trump ułaskawił prezydenta Hondurasu Hernandeza skazanego na 45 lat więzienia
- Rosjanie chwalą się prototypem komputera kwantowego. "Najważniejszy projekt naukowy Rosji"
- A Szwajcarzy kombinują tak: FinalSpark grows human neurons from stem cells and connects them to electrode arrays
- Re: Najgorszy język programowania
- NOWY: 2025-09-29 Alg., Strukt. Danych i Tech. Prog. - komentarz.pdf
- Na grupie comp.os.linux.advocacy CrudeSausage twierdzi, że Micro$lop używa SI do szyfrowania formatu dok. XML
- Błąd w Sofcie Powodem Wymiany 3 Duńskich Fregat Typu Iver Huitfeldt
- Grok zaczął nadużywać wulgaryzmów i wprost obrażać niektóre znane osoby
- Can you activate BMW 48V 10Ah Li-Ion battery, connecting to CAN-USB laptop interface ?
- We Wrocławiu ruszyła Odra 5, pierwszy w Polsce komputer kwantowy z nadprzewodzącymi kubitami
- Ada-Europe - AEiC 2025 early registration deadline imminent
- John Carmack twierdzi, że gdyby gry były optymalizowane, to wystarczyły by stare kompy
- Ada-Europe Int.Conf. Reliable Software Technologies, AEiC 2025
- Linuks od wer. 6.15 przestanie wspierać procesory 486 i będzie wymagać min. Pentium
Najnowsze wątki
- 2026-01-29 KSeF - 13 wątpliwości
- 2026-01-29 A ja się pochwalę
- 2026-01-29 Warszawa => Mid/Senior IT Recruiter <=
- 2026-01-29 Warszawa => Senior Java Developer <=
- 2026-01-29 Warszawa => IT Recruiter <=
- 2026-01-28 Degradacja
- 2026-01-28 Wysoki Sąd poinstruował czego unikać wyzywając Owsiaka "Równiejszego"
- 2026-01-28 Białystok => Solution Architect (Workday) - Legal Systems <=
- 2026-01-28 Białystok => Preseles Inżynier (background baz danych) <=
- 2026-01-28 Wrocław => Konsultant wdrożeniowy ERP <=
- 2026-01-28 Łódź => Microsoft Engineer <=
- 2026-01-28 Białystok => Tester manualny <=
- 2026-01-27 Tradycja ciągania posłów po sądach za wystąpienia w Sejmie będzie kontynuowana [Lepper 2]
- 2026-01-27 Pierwszy raz sprzedano więcej samochodów zeeletryfikowanych niż ice
- 2026-01-27 Elektryczny Kałasznikow




Jak kupić pierwsze mieszkanie? Eksperci podpowiadają