-
Path: news-archive.icm.edu.pl!news.gazeta.pl!not-for-mail
From: " M.M." <m...@g...pl>
Newsgroups: pl.comp.programming
Subject: Re: odchylenie standardowe online
Date: Sat, 4 Feb 2012 09:50:49 +0000 (UTC)
Organization: "Portal Gazeta.pl -> http://www.gazeta.pl"
Lines: 75
Message-ID: <jgiv1p$7ii$1@inews.gazeta.pl>
References: <jg4sr8$lv$1@inews.gazeta.pl> <o...@a...home>
<jg573t$glv$1@inews.gazeta.pl> <jg57nu$6bg$1@node2.news.atman.pl>
<4f296d0d$0$1268$65785112@news.neostrada.pl>
<jgcjb1$8pk$1@node2.news.atman.pl>
<4f2ad4a1$0$1209$65785112@news.neostrada.pl>
<jgga8c$3ht$1@node2.news.atman.pl>
<4f2c2271$0$1232$65785112@news.neostrada.pl>
<jghahj$77l$1@node2.news.atman.pl>
<4f2c45b9$0$1232$65785112@news.neostrada.pl>
<jgihb1$dog$1@node2.news.atman.pl> <jgioan$lg3$1@inews.gazeta.pl>
<jgiph1$lov$1@node2.news.atman.pl>
NNTP-Posting-Host: localhost
Content-Type: text/plain; charset=ISO-8859-2
Content-Transfer-Encoding: 8bit
X-Trace: inews.gazeta.pl 1328349049 7762 172.20.26.236 (4 Feb 2012 09:50:49 GMT)
X-Complaints-To: u...@a...pl
NNTP-Posting-Date: Sat, 4 Feb 2012 09:50:49 +0000 (UTC)
X-User: mariotti
X-Forwarded-For: 89.229.34.123
X-Remote-IP: localhost
Xref: news-archive.icm.edu.pl pl.comp.programming:195072
[ ukryj nagłówki ]bartekltg <b...@g...com> napisał(a):
> W dniu 2012-02-04 08:56, M.M. pisze:
> > bartekltg<b...@g...com> napisaĹ(a):
> >
> >>> Oj! SkĂ d to wiesz?! DaÄšÂoby siĂ np. sprawdziĂ testem nieparametr
> ycznym,
> >>> lecz... nie w kaĚźdym przypadku bÄšÂĂÂdy sĂ opisane tzw. rozkÄšÂad
> em normalnym
> >> .
> >>
> >> Rozumiesz tekst pisany? Gdy bÄšÂĂÂdy sa takie a takie to
> >> teg lin jest w pewnym sensie najlepsza. Teraz pojĂ ĚÂ?
> >
> > Regresja liniowa to w ogole wdzieczna metoda. Odznacza sie mala
> > zlozonoscia i jednoznacznosc wyniku. Mozna miec caly dysk zawalony
> > danymi i bez problemu znalezc 2-3tys liniowych parametrow.
>
> Z ta maĹÄ zĹoĹźonoĹciÄ aĹź tak bym nie przesadzaĹ.
Trzeba zbudowac macierz N x (N+1) gdzie N to ilosc parametrow.
3tys parametrow daje rozmiar 9mln liczb w macierzy. Czyli
mamy 9mln operacy typu A[ i * N + j ] += input[i] * input[j];
Ile to moze trwac? Okolo 1-10ms? To mamy okolo 100-1000 wektorow
na sekunde na jednym rdzeniu. Czyli na 6 rdzeniach na godzine mamy
od okolo 20 do 200 mln rekordow. W porownaniu do optymalizacji
nieliniowych smiem nazywac to super wydajnoscia :)
> Z samej regresji przyjdzmy do prawdziwego zadadnienie,
> czyli najmniejszych kwadratĂłw.
> Macierz X, parametry b, wyniki y.
> Szukamy b takiego, aby wektor Xb-y miaĹ najmniejszÄ dĹugoĹÄ.
>
> X jest rozmiaru n=[iloĹÄ zmiennych] na m=[iloĹÄ prĂłbek].
>
> RozwiÄ zanie tego rĂłwnaniem normalnym sprowadza siÄ
> do stworzenia ukĹadu rĂłwnaĹ z macierzÄ n x n, czyli
> rzeczywiĹcie maĹego, a X^t*X moĹźna policzyÄ w miarÄ
> sprawnie majÄ c peĹne X na dysku. Ale ta metoda
> jest kiepskawa numerycznie (uwarunkowanie
> nam siÄ skwadratowaĹo, a dla duĹźych X i tak byĹo
> najprawdopodobniej niemaĹe).
Trzeba chociaz rozwiazanie podstawic do rownania i zwykle
sprawdzenie zorbic. Dla moich danych nie mialem klopotow
ze stabilnoscia. Uzywalem tylko zwyklego double i eliminacji
gaussa napisanej na kolanie.
> Inne popularne metody ktĂłre nie majÄ tego problemu
> korzystajÄ z jakiĹ rozkĹadĂłw X. Ale wtedy niewygodnie
> to zrobiÄ na dysku:) No i ma te swoje n^3 czasu.
Czyli iteracyjnie na dysku. Rozmawialismy o tym jakis
czas temu na tej grupie (albo na C++). Oczywista podstawa to
sekwencyjny odczyt z dysku. Wtedy mialem bardzo specyficzne
dane, praktycznie po 5ciu przebiegach najprostszym algorytmem
uzyskiwalem zadowalajaca dokladnosc.
> Chyba, Ĺźe masz jakiĹ pomysĹ. KiedyĹ byĹa tu (albo
> w okolicy) doĹÄ powaĹźna dyskusja na ten temat.
Pewna ilosc parametrow traktowalem jako jedna stala, a
dla pozostalych budowalem zwykla macierz i rozwiazywalem
eliminacja gaussa. W nastepnym przebiegu inne parametrytry
traktowalem jak stala i tak w kolo az kazdy parametr
byl uwzgledniony X razy. Pewnie sa znane ciekawe metody
wyboru tych parametrow ktore w kolejnej iteracji potraktowac
jako stala, ja korzystalem z najprostszej, czyli z losowej z
kontrola powtorzen.
Ale ostatecznie lepsze rezultaty byly dla okolo 500-3000 parametrow i
nie bylo potrzeby zajezdzania dyskow.
Pozdrawiam
--
Wysłano z serwisu Usenet w portalu Gazeta.pl -> http://www.gazeta.pl/usenet/
Następne wpisy z tego wątku
- 04.02.12 10:16 slawek
- 04.02.12 12:35 M.M.
- 04.02.12 13:38 Roman W
- 09.02.12 13:00 slawek
- 09.02.12 13:46 bartekltg
- 09.02.12 14:01 bartekltg
- 09.02.12 16:17 Roman W
- 09.02.12 20:51 slawek
- 09.02.12 21:06 slawek
- 09.02.12 21:07 bartekltg
- 09.02.12 21:22 slawek
- 09.02.12 21:27 slawek
- 09.02.12 22:08 bartekltg
Najnowsze wątki z tej grupy
- Do czego nadaje się QDockWidget z bibl. Qt?
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
- Re: (PDF) Surgical Pathology of Non-neoplastic Gastrointestinal Diseases by Lizhi Zhang
- CfC 28th Ada-Europe Int. Conf. Reliable Software Technologies
- Młodzi programiści i tajna policja
- Ada 2022 Language Reference Manual to be Published by Springer
- Press Release - AEiC 2023, Ada-Europe Reliable Softw. Technol.
- Ada-Europe - AEiC 2023 early registration deadline approaching
- Ada-Europe Int.Conf. Reliable Software Technologies, AEiC 2023
- Ile cykli zajmuje mnożenie liczb 64-bitowych?
Najnowsze wątki
- 2024-05-18 Warszawa => Mid PHP Developer (Laravel) <=
- 2024-05-18 Warszawa => Software .Net Developer <=
- 2024-05-18 Warszawa => Mid/Senior QA Engineer <=
- 2024-05-18 Ulm => Solution Architect (sichere Kommunikation und IoT-Loesungen <=
- 2024-05-18 Katowice => Head of Virtualization Platform Management and Operating S
- 2024-05-18 Warszawa => SAP WM Consultant / Execution <=
- 2024-05-18 Wrocław => Consultant/Implementer Comarch ERP XL <=
- 2024-05-18 Gdańsk => Head of International Freight Forwarding Department <=
- 2024-05-18 Warszawa => Account Manager (Recruitment Services) <=
- 2024-05-18 Łódź => Salesperson - CRM Systems <=
- 2024-05-18 Łódź => Handlowiec - Systemy CRM <=
- 2024-05-17 ZŁOMNIK o pracy w TVN TURBO, nowych przepisach i współczesnej motoryzacji. Turbo Taryfa!
- 2024-05-17 Białystok => DevOps Engineer Conexa First (Contractor) <=
- 2024-05-17 Warszawa => Starszy inżynier oprogramowania (Rust) <=
- 2024-05-17 Zabrze => Junior HelpDesk <=