eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.programming › kryzys jezyków kompilowanych do kodu 'natywnego'
Ilość wypowiedzi w tym wątku: 46

  • 41. Data: 2012-04-15 04:54:39
    Temat: Re: kryzys jezyków kompilowanych do kodu 'natywnego'
    Od: " M.M." <m...@g...pl>

    Edek Pienkowski <e...@g...com> napisał(a):

    > Sieć NN, nuda jak cholera. Każdy pseudo-neuron był połączony z
    > poprzednim(i) layerem(ami) na zasadzie kształtu - layer 2D,
    > kształt tego rodzaju, że obejmuje neurony "najbliżej", z tymi ma link,
    > chociaż mógł być "co któryś", jak w iteracji ze step.

    > Optymalizowałem uczenie, czyli forward pass, ocena, uczenie. Uczenie
    > na zasadzie zmian przy złym wyniku bez back-prop., potem jeszcze
    > wzmacnianie połączeń przy "dobrym". Funkcja typu clip (0.,1.),
    > ale binaryzowana 3-8 bitów na neuron
    > (przy 3: 0., 0. + 1./7. , ..., 1.). Pomijając gęstość
    > informacji na podstawie czytanych prac, słabo znam temat NN,
    > to binaryzowanie fajnie na CUDA działało, bo dużo więcej
    > się mieściło w shared, chociaż na starych kartach (1.3) to było
    > jeszcze przewidywalne, ale na cc 2.1 już nie miałem czasami pojęcia,
    > dlaczego coś jest szybsze lub, oczywiście z zaskoczenia, 30%
    > wolniejsze.

    > Jakkolwiek by się nie napisało algorytmu dostępy bywały mocno
    > nieregularne, to nie każdy-z-każdym. Na i7 lepszy był naiwny
    > algorytm, każdy link miał dwa floaty i kilka pointerów, alokowany
    > przez new, a na Core 2 lepsze było SoA, chociaż tu znowu
    > sporo zależało od "kształtu", ile linków na neuron i proporcji
    > do rozmiaru layera. Przy wielkich oczywiście pomagało tiling
    > ze względu na cache, ale ja zazwyczaj miałem dużo layerów
    > raczej niewielkich (nieliniowe mają inne
    > właściwości, jest sens robić więcej layerów, ilość informacji
    > w nieliniowych jest inna niż w liniowych, o ile znam temat;
    > w każdym razie to nie jest minimalizacja).

    > Tylko dlatego tak naprawdę sporo czasu na to poświęciłem,
    > że właśnie nie było to nic regularnego, a jednocześnie w miarę
    > niewielkie.

    > Różnice były rzędu kilku %, ale zdarzały się odchyły rzędu
    > 20% gorzej. Całość po kompilacji trafiała do jednej wielkiej
    > metody, zmieniałem głównie layout danych, kolejność iteracji,
    > alignment, opcje typu fp+sse/sse z różnym skutkiem no i
    > to PGO. Oczywiście główną alternatywą był push albo pull,
    > swoje też dodawał random.

    > Coś czego do dzisiaj nie rozumiem: pierwsze przebiegi były
    > sporo wolniejsze, potem kilka ze 2-3% szybsze, potem plateau o ile
    > system czegoś akurat nie robił. Chyba na i7, nie pamiętam. Tego
    > że seria przebiegów miała ten peak nie rozumiem,
    > a sprawdziłem, że mi się wcale nie przywidziało, kilka razy.

    Czyli podsumowując napracowałeś się bardzo dużo nad implementacją, a
    efektów zbyt dużo nie było. Tak to już chyba jest... ale bardzo zdumiewa
    mnie fakt, że używając SEE / CUDA nie uzyskałeś na czymś takim jak
    sztuczne sieci neuronowe kolosalnego przyspieszenia. Gdzieś czytałem
    że na jednej tesli (która zdaje się ma 4 GPU) uzyskano przyspieszenie
    260 razy względem dwu- (albo nawet cztero-) procesorowego Xeona.

    Nie wiem jak to dokładnie implementowałeś... w swojej implementacji
    czegoś podobnego właśnie nie widzę sensownego miejsca na optymalizację.
    Ja mam po prostu zbiór neuronów, a wejścia niczym się nie różnią od
    neuronów. W uproszczeniu neuron to u mnie jedna liczba zmiennoprzecinkowa.
    Potem ma tablicę mniej/więcej takich struktur:
    struct Connect {
    int input;
    int output
    float weight;
    };

    Serce i zarazem gorący punkt algorytmu to taka pętla:

    float neurony[1..ilosc_neuronow];
    neurony[1..ilosc_wejsc] = wektor_wyjsciowy;
    for( i=0 ; i<connects.size ; i++ ) {
    neurony[ connects[i].output ] += funkcja_nieliniowa( neurony[
    connects[i].input ] );
    neurony[ neurony[ connects[i].input ] = funkcja_zaniku( neurony[
    connects[i].input );
    }
    return neurony[ilosc_neuronow-ilosc_wyjsc..ilosc_neuronow];

    Co tu da się zoptymalizować to nie wiem :)
    Ale na Tesli, do póki dane mieszczą się w jej pamięci, to powinno działać
    równolegle na 512 procesorach...

    Pozdrawiam


    --
    Wysłano z serwisu Usenet w portalu Gazeta.pl -> http://www.gazeta.pl/usenet/


  • 42. Data: 2012-04-15 11:37:49
    Temat: Re: kryzys jezyków kompilowanych do kodu 'natywnego'
    Od: Edek Pienkowski <e...@g...com>

    Dnia Sun, 15 Apr 2012 02:54:39 +0000, M.M. napisal:

    > Edek Pienkowski <e...@g...com> napisał(a):
    >
    >> Sieć NN, nuda jak cholera. Każdy pseudo-neuron był połączony z
    >> poprzednim(i) layerem(ami) na zasadzie kształtu - layer 2D,
    >> kształt tego rodzaju, że obejmuje neurony "najbliżej", z tymi ma link,
    >> chociaż mógł być "co któryś", jak w iteracji ze step.
    [...]
    >
    >> Różnice były rzędu kilku %, ale zdarzały się odchyły rzędu
    >> 20% gorzej. Całość po kompilacji trafiała do jednej wielkiej
    >> metody, zmieniałem głównie layout danych, kolejność iteracji,
    >> alignment, opcje typu fp+sse/sse z różnym skutkiem no i
    >> to PGO. Oczywiście główną alternatywą był push albo pull,
    >> swoje też dodawał random.
    [...]
    >
    > Czyli podsumowując napracowałeś się bardzo dużo nad implementacją, a
    > efektów zbyt dużo nie było. Tak to już chyba jest... ale bardzo zdumiewa
    > mnie fakt, że używając SEE / CUDA nie uzyskałeś na czymś takim jak
    > sztuczne sieci neuronowe kolosalnego przyspieszenia. Gdzieś czytałem
    > że na jednej tesli (która zdaje się ma 4 GPU) uzyskano przyspieszenie
    > 260 razy względem dwu- (albo nawet cztero-) procesorowego Xeona.

    Pisząc o % pisałem o CPU. Jeżeli chodzi o CUDA, to jabłka do gruszek,
    zależy od karty. Pisząc o 1.3 miałem na myśli GeForce 8 - nie ma
    o rząd wielkości lepszej przepustowości niż L2 CPU, było szybciej
    jeżeli uruchomiło się 20 sieci zamiast jednej; przepisywałem to
    później tak, żeby równolegle nie było 20 sieci tylko 20 przebiegów
    jednej sieci; dla małych sieci ciężko było mieć 20 blocków
    działających na jednym przebiegu jednej sieci.

    Te o o których piszesz mogły mieć bardziej regularną strukturę,
    dla kart GPU struktura dostępów do RAM ma kolosalne znaczenie.
    O ile funkcje nie są b. skomplikowane, limitem jest RAM,
    nie GFLOPS. Dlatego brałem część źródła do shared i z shared było
    szybciej. Tyle, że już wtedy musiałem mieć albo testy albo
    osobną kartę, bo debugger nie działa jak na niej siedzi desktop.

    Sieć każdy-z-każdym można przyśpieszyć trywialnie.

    Na CPU te kilka % w algorytmie, którego zasady zmienić się nie
    da, to też coś.

    >
    > Nie wiem jak to dokładnie implementowałeś... w swojej implementacji
    > czegoś podobnego właśnie nie widzę sensownego miejsca na optymalizację.
    > Ja mam po prostu zbiór neuronów, a wejścia niczym się nie różnią od
    > neuronów. W uproszczeniu neuron to u mnie jedna liczba zmiennoprzecinkowa.
    > Potem ma tablicę mniej/więcej takich struktur:
    > struct Connect {
    > int input;
    > int output
    > float weight;
    > };
    >
    > Serce i zarazem gorący punkt algorytmu to taka pętla:
    >
    > float neurony[1..ilosc_neuronow];
    > neurony[1..ilosc_wejsc] = wektor_wyjsciowy;
    > for( i=0 ; i<connects.size ; i++ ) {
    > neurony[ connects[i].output ] += funkcja_nieliniowa( neurony[
    > connects[i].input ] );
    > neurony[ neurony[ connects[i].input ] = funkcja_zaniku( neurony[
    > connects[i].input );
    > }
    > return neurony[ilosc_neuronow-ilosc_wyjsc..ilosc_neuronow];
    >
    > Co tu da się zoptymalizować to nie wiem :)

    - Structure of Arrays vs. Array of Structures
    - iterując po neuronach a nie po linkach (po linkach wewnętrzna pętla)
    można mieć linki w tablicy, offsety tylko źródła w tablicy, a iterować
    po docelowych neuronach (to pull, można analogicznie push)
    - albo mieć nie offsety tylko pointery
    - ponieważ nie ma pętli layerów, można wrzucić neurony wszystkich layerów
    do jednej tablicy i jednej pętli
    - i podobne, kolejność iteracji taka, żeby mieć najlepsze locality

    Tą część CPU to można przepisać w dowolnych kombinacjach w kilka
    godzin tak naprawdę, przy CUDA jest więcej zabawy z rozmieszczeniem
    tego odpowiednio w pamięci.

    > Ale na Tesli, do póki dane mieszczą się w jej pamięci, to powinno działać
    > równolegle na 512 procesorach...

    Nie mam Tesli... to czysto amatorska zabawa. Nie pamiętam liczb,
    ale było szybciej nie o %, tylko wielokrotnie - przy czym co innego
    8xxx, a co innego 4xx czy 5xx. To tak jakbyś porównywał p4 do i7.

    Edek


  • 43. Data: 2012-04-15 12:11:28
    Temat: Re: kryzys jezyków kompilowanych do kodu 'natywnego'
    Od: Edek Pienkowski <e...@g...com>

    Dnia Sun, 15 Apr 2012 02:54:39 +0000, M.M. napisal:

    > Tak to już chyba jest... ale bardzo zdumiewa
    > mnie fakt, że używając SEE / CUDA nie uzyskałeś na czymś takim jak
    > sztuczne sieci neuronowe kolosalnego przyspieszenia.

    Co do SSE, to nie wpadłem na pomysł taki, żeby
    robić wersję bez SSE, więc nie mam porównania.

    Pozdrawiam
    Edek


  • 44. Data: 2012-04-16 22:01:17
    Temat: Re: kryzys jezyków kompilowanych do kodu 'natywnego'
    Od: "AK" <n...@n...com>

    Użytkownik "Sebastian Biały" <h...@p...onet.pl> napisał:

    > Właśnie wynadujesz kwadratowe koło. Aplikacja *nie* powinna nic o pamięci wiedziec
    poza tym że
    > może jej użyć.

    Bardzo mądre słowa. Wręcz sedno !

    Pozdrawiam

    AK


  • 45. Data: 2012-04-17 01:12:55
    Temat: Re: kryzys jezyków kompilowanych do kodu 'natywnego'
    Od: Andrzej Jarzabek <a...@g...com>

    On 14/04/2012 12:36, Sebastian Biały wrote:
    > On 2012-04-14 02:54, Andrzej Jarzabek wrote:
    >> Ale:
    >> * Alokacja na stosie
    >
    > To nie język funkcyjny żeby było to wygodne. Zdecydowana większość kodu
    > pisanego w C++ i Javie działa intensywnie używając heapu.

    W Javie zdecydowanie, bo nie da się utworzyć obiektów na stosie.

    W C++ nie podejmuję się powiedzieć jak jest z większością, ale na pewno
    alokację na stosie wykorzystuje się intensywnie w krytycznych z punktu
    widzenia wydajności fragmentach programu. Funkcyjność nie ma nic do
    rzeczy, "ciasna pętla" często potrafi nawet w C++ polegać na tym, że się
    jakąś wartość skądś uzyskuje (jest zwracana przez funkcję), umieszcza w
    zmiennej lokalnej, i przekazuje jako argument do kolejnej funkcji, która
    ci zwraca coś, co jest np. dodawane do akumulatora zliczającego sumę w
    tej pętli. Wszystko to może się odbywać na stosie (w zależności od
    charakteru danych, ale często tak)

    >> * Kompozycja
    >
    > Stoi w sprzeczności z separacją funkcjonalności.

    Boponieważ?

    > Wyważenie jest cieżkie.
    > Wprowadzanie w design od razu optymalizacji na pamięć jest niebezpieczne.

    Kompozycja jest w C++ najbardziej naturalna, to inne relacje (przez
    wskaźniki czy inne smart pointery) musisz "wprowadzać" ze względu na
    cośtam (shared ownership, polimorfizm itd.)

    >> * Zamiast zwykłej sterty można stosować poole czy regiony.
    >
    > Poole czy regiony problem tylko zamieniają na mniejszy, lokalny. Ale
    > bedzie dalej występował.

    Jeśli dobrze przemyślisz użycie tego, to w praktyce nie będzie.

    > Nie piszę o Javie. Chodzi ogólnie o to że C++ nie wymyslił niczego
    > najlepszego w dziedzinie zarządzania pamięcią.

    Ja pisałem o Javie. A kto wymyślił coś najlepszego w tej dziedzinie?


  • 46. Data: 2012-04-17 14:26:57
    Temat: Re: kryzys jezyków kompilowanych do kodu 'natywnego'
    Od: "AK" <n...@n...com>

    Użytkownik "Andrzej Jarzabek" <a...@g...com> napisał:

    > Ja pisałem o Javie. A kto wymyślił coś najlepszego w tej dziedzinie?

    Np. Simula

    AK

strony : 1 ... 4 . [ 5 ]


Szukaj w grupach

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: