odchylenie standardowe online - Grupy dyskusyjne w eGospodarka.pl

eGospodarka.pl › Grupy › pl.comp.programming › odchylenie standardowe online

« poprzedni wątek

następny wątek »

Ilość wypowiedzi w tym wątku: 40

21. Data: 2012-02-03 18:54:42
Temat: Re: odchylenie standardowe online
Od: bartekltg <b...@g...com>

W dniu 2012-02-03 19:07, slawek pisze:
>
> Użytkownik "bartekltg" <b...@g...com> napisał w wiadomości grup
> dyskusyjnych:jgga8c$3ht$...@n...news.atman.pl...
>> Regresja liniowa zakłada istnienie funkcji y=f(x). Tu taka nie istnieje,
>
> Regresja liniowa nie zakłada tego.

Zakłada.

> Regresja liniowa jest nt. murzynów
> (pigmejów). Serio. Facet, który to wymyślił, był porąbanym rasistą:
> chciał udowodnić wyższość wysokich blondynów aryjskich. Przypadkiem
> odkrył metodę dopasowywania "najlepszej" prostej do danych
> doświadczalnych.

To historia powstania. Mało interesujące(z naszego punktu widzenia).
Natomiast współczesne matematyczne zdefiniowanie dopasowuje
funkcję y od zestawu argumentów.

> Nota bene są jeszcze dwie zupełnie inne metody (Hubera
> na medianie i jakiś cud wymyślony parę lat temu przez Holendrów
> bodajże...), dające zupełnie inne rezultaty.

Nie ma w tym nic dziwnego. Już biorąc inną normę do minimalizacji
dostaje się inne wyniki. A przecież nie trzeba dopasowywać
minimaluzując normę błędu. Inna metoda - inne wyniki.

Regresja nie daje 'najlepszej prostej' a jedynie prostą
dla której kwadraty błędów są minimalne. NIeraz jest to
uzasadnione (gdy wiemy, że błędy sa gaussowskie), nieraz
po prostu korzystamuy z jako wygodnej metody, a nieraz
potrafi dać inne wyniki niż oczekujemy.

> Algorytm regresji liniowej nie zakłada istnienia zależności funkcyjnej,
> ale po prostu określa równanie prostej minimalizującej sumę kwadratów
> odchyleń (i to zwykle nie OLS/EOV).

Ale wynik jest pewną funkcję. Dlatego metoda nie potrafi zwrócić
'pionowej kreski'.

>> co najwyżej odwrotna. Metody numeryczne to nie czarna skrzynka,
>> trzeba myśleć.
>
> Owszem. Radzę też poza myśleniem nieco poczytać - podręczniki na
> początek, potem bieżącą literaturę.

Aha. I zaprzestać opowaidania głupot o 'naprawianiu' regresji
aby dawała pionowe kreski.

pzdr
bartekltg

[ pokaż wiadomość z nagłówkami ]

do góry
22. Data: 2012-02-03 20:38:17
Temat: Re: odchylenie standardowe online
Od: "slawek" <s...@h...pl>

Użytkownik "bartekltg" <b...@g...com> napisał w wiadomości grup
dyskusyjnych:jghahj$77l$...@n...news.atman.pl...
> Zakłada.

Tobie się wydaje że wiesz. Po co ja mam ci tłumaczyć, że bredzisz? Im
bardziej będę przekonywał - tym bardziej będziesz, z uporem godnym
południowoamerykańskiego macho, bronił swojego światopoglądu.

> To historia powstania. Mało interesujące(z naszego punktu widzenia).

Niezupełnie mało: facet był opętany ideologią nienawiści rasowej, stąd np.
zamiast rzetelnie opracowywać dane - naciągał to i owo. Także i sposób w
jaki potem posługiwano (i niestety posługuje) się regresją liniową - jest
delikatnie ujmując OKDR. Ponieważ jest to (względnie) prosta metoda, to
używa się jej wszędzie... i najczęściej w niezbyt przemyślany sposób, np.
stosując anamorfozę i nawet nie zastanawiając się co zrobić z wagami.

> Nie ma w tym nic dziwnego. Już biorąc inną normę do minimalizacji
> dostaje się inne wyniki. A przecież nie trzeba dopasowywać
> minimaluzując normę błędu. Inna metoda - inne wyniki.

Ciekawe, ciekawe. Jak chcesz robić "inną normę" i nie maksymalizować
wiarygodności wyników?! No i drobiazg: przy "innej normie" to już
niestety... inny algorytm. Nie mający nic wspólnego ze "zwykłą regresją".

> Regresja nie daje 'najlepszej prostej' a jedynie prostą
> dla której kwadraty błędów są minimalne. NIeraz jest to

Kwestia definicji. Nota bene, nie wypada teraz pisać "błędy" - pisze się
"niepewności pomiarowe" (w naukach technicznych itp.)

Przy okazji - jesteś pewien, że to (suma) "kwadratów błędów" a nie "suma
kwadratów odchyleń" (czyli chi-square)? Niepewności pomiarowe już
zmierzonych/otrzymanych danych nie zmieniają się od tego, że policzone
zostało cokolwiek - nawet regresja. Przemyśl to sobie.

> uzasadnione (gdy wiemy, że błędy sa gaussowskie), nieraz

Oj! Skąd to wiesz?! Dałoby się np. sprawdzić testem nieparametrycznym,
lecz... nie w każdym przypadku błędy są opisane tzw. rozkładem normalnym.

Na przykład 1 kg cukru, dokładność ważenia 0.5 kg. Jakie jest według ciebie
(wierzysz w "gaussowskość") prawdopodobieństwo, że ten cukier ma ujemną
masę?! LOL

> po prostu korzystamuy z jako wygodnej metody, a nieraz
> potrafi dać inne wyniki niż oczekujemy.

Primo, wygodna to nie jest. Dlaczego? Np. właśnie EOV.

Secundo, "nasze" (czyli twoje) oczekiwania nt. wyników nie mają znaczenia -
elementarna etyka badań się kłania.

> Ale wynik jest pewną funkcję. Dlatego metoda nie potrafi zwrócić
> 'pionowej kreski'.

Według ciebie y = 1 nie jest funkcją? To poczytaj sobie dobry podręcznik
matematyki.

> Aha. I zaprzestać opowaidania głupot o 'naprawianiu' regresji
> aby dawała pionowe kreski.

Nie abym się czepiał literówek. Ale daj sobie spokój - za stary troll
jestem, abym odpuścił sobie polemikę... stojąc na gruncie sobie aż za nadto
znanym.

[ pokaż wiadomość z nagłówkami ]

do góry
23. Data: 2012-02-04 05:56:49
Temat: Re: odchylenie standardowe online
Od: bartekltg <b...@g...com>

W dniu 2012-02-03 21:38, slawek pisze:
>
> Użytkownik "bartekltg" <b...@g...com> napisał w wiadomości grup
> dyskusyjnych:jghahj$77l$...@n...news.atman.pl...
>> Zakłada.
>
> Tobie się wydaje że wiesz. Po co ja mam ci tłumaczyć, że bredzisz? Im
> bardziej będę przekonywał - tym bardziej będziesz, z uporem godnym
> południowoamerykańskiego macho, bronił swojego światopoglądu.
>
>> To historia powstania. Mało interesujące(z naszego punktu widzenia).
>
> Niezupełnie mało: facet był opętany ideologią nienawiści rasowej, stąd
> np. zamiast rzetelnie opracowywać dane - naciągał to i owo. Także i
> sposób w jaki potem posługiwano (i niestety posługuje) się regresją
> liniową - jest delikatnie ujmując OKDR. Ponieważ jest to (względnie)
> prosta metoda, to używa się jej wszędzie... i najczęściej w niezbyt
> przemyślany sposób, np. stosując anamorfozę i nawet nie zastanawiając
> się co zrobić z wagami.

Ale co to kogo obchodzi. Jak stosować reglin wiadomo.

>
>> Nie ma w tym nic dziwnego. Już biorąc inną normę do minimalizacji
>> dostaje się inne wyniki. A przecież nie trzeba dopasowywać
>> minimaluzując normę błędu. Inna metoda - inne wyniki.
>
> Ciekawe, ciekawe. Jak chcesz robić "inną normę" i nie maksymalizować
> wiarygodności wyników?! No i drobiazg: przy "innej normie" to już

Można sumę kwadratów, można sumę wartośći bezwzględnych błędu,
można wszytko co jest normą.

> niestety... inny algorytm. Nie mający nic wspólnego ze "zwykłą
> regresją".

Tak. Regresja (na tych samych danych) da zawsze ten sam wynik.
Inna metoda da inny.

>
>> Regresja nie daje 'najlepszej prostej' a jedynie prostą
>> dla której kwadraty błędów są minimalne. NIeraz jest to
>
> Kwestia definicji. Nota bene, nie wypada teraz pisać "błędy" - pisze się
> "niepewności pomiarowe" (w naukach technicznych itp.)

Tyle, że w naszym przypadku (przeprowadzania regresji) nie musza
to być niepewności pomiarowe!

>> uzasadnione (gdy wiemy, że błędy sa gaussowskie), nieraz
>
> Oj! Skąd to wiesz?! Dałoby się np. sprawdzić testem nieparametrycznym,
> lecz... nie w każdym przypadku błędy są opisane tzw. rozkładem normalnym.

Rozumiesz tekst pisany? Gdy błędy sa takie a takie to
teg lin jest w pewnym sensie najlepsza. Teraz pojął?

>> Ale wynik jest pewną funkcję. Dlatego metoda nie potrafi zwrócić
>> 'pionowej kreski'.
>
> Według ciebie y = 1 nie jest funkcją? To poczytaj sobie dobry podręcznik
> matematyki.

Funkcja to nie napis, ale relacja między dwoma zbiorami.
y=1 NIE JEST funkcją z x w y.
A robiąc regresje jak w temacie dopasowujemy funkcję
właśnie z 'x' w 'y'

>> Aha. I zaprzestać opowaidania głupot o 'naprawianiu' regresji
>> aby dawała pionowe kreski.
>
> Nie abym się czepiał literówek. Ale daj sobie spokój - za stary troll
> jestem, abym odpuścił sobie polemikę... stojąc na gruncie sobie aż za
> nadto znanym.

W sumie racja. Dowody swojej 'wiedzy' o numerkach zaprezentowałeś
wielokrotnie na pl.comp.* i pl.sci.*, nie ma co się szarpać.

bartekltg

[ pokaż wiadomość z nagłówkami ]

do góry
24. Data: 2012-02-04 07:56:07
Temat: Re: odchylenie standardowe online
Od: "M.M." <m...@g...pl>

bartekltg <b...@g...com> napisał(a):

> > Oj! SkÄd to wiesz?! DaĹoby siÄ np. sprawdziÄ testem nieparametrycznym,
> > lecz... nie w kaĹźdym przypadku bĹÄdy sÄ opisane tzw. rozkĹadem normalnym
> .
>
> Rozumiesz tekst pisany? Gdy bĹÄdy sa takie a takie to
> teg lin jest w pewnym sensie najlepsza. Teraz pojÄĹ?

Regresja liniowa to w ogole wdzieczna metoda. Odznacza sie mala
zlozonoscia i jednoznacznosc wyniku. Mozna miec caly dysk zawalony
danymi i bez problemu znalezc 2-3tys liniowych parametrow.

Natomiast wszelkie szukanie nieliniowych parametrow szybko zamienia
sie w koszmar obliczeniowy.

Pozdrawiam

--
Wysłano z serwisu Usenet w portalu Gazeta.pl -> http://www.gazeta.pl/usenet/

[ pokaż wiadomość z nagłówkami ]

do góry
25. Data: 2012-02-04 08:16:32
Temat: Re: odchylenie standardowe online
Od: bartekltg <b...@g...com>

W dniu 2012-02-04 08:56, M.M. pisze:
> bartekltg<b...@g...com> napisał(a):
>
>>> Oj! SkÄd to wiesz?! DaĹoby siÄ np. sprawdziÄ testem nieparametrycznym,
>>> lecz... nie w kaĹźdym przypadku bĹÄdy sÄ opisane tzw. rozkĹadem normalnym
>> .
>>
>> Rozumiesz tekst pisany? Gdy bĹÄdy sa takie a takie to
>> teg lin jest w pewnym sensie najlepsza. Teraz pojÄĹ?
>
> Regresja liniowa to w ogole wdzieczna metoda. Odznacza sie mala
> zlozonoscia i jednoznacznosc wyniku. Mozna miec caly dysk zawalony
> danymi i bez problemu znalezc 2-3tys liniowych parametrow.

Z ta małą złożonością aż tak bym nie przesadzał.
Z samej regresji przyjdzmy do prawdziwego zadadnienie,
czyli najmniejszych kwadratów.
Macierz X, parametry b, wyniki y.
Szukamy b takiego, aby wektor Xb-y miał najmniejszą długość.

X jest rozmiaru n=[ilość zmiennych] na m=[ilość próbek].

Rozwiązanie tego równaniem normalnym sprowadza się
do stworzenia układu równań z macierzą n x n, czyli
rzeczywiście małego, a X^t*X można policzyć w miarę
sprawnie mając pełne X na dysku. Ale ta metoda
jest kiepskawa numerycznie (uwarunkowanie
nam się skwadratowało, a dla dużych X i tak było
najprawdopodobniej niemałe).

Inne popularne metody które nie mają tego problemu
korzystają z jakiś rozkładów X. Ale wtedy niewygodnie
to zrobić na dysku:) No i ma te swoje n^3 czasu.

Chyba, że masz jakiś pomysł. Kiedyś była tu (albo
w okolicy) dość poważna dyskusja na ten temat.

Kilkadziesiąt GB danych, parę(dziesiąt) tysięcy parametrów.

> Natomiast wszelkie szukanie nieliniowych parametrow szybko zamienia
> sie w koszmar obliczeniowy.

W końcu minimalizacja kwadratów odchyleń to na dobrą sprawę
rzut na odpowiednią płaszczyznę;-)

pzdr
bartekltg

[ pokaż wiadomość z nagłówkami ]

do góry
26. Data: 2012-02-04 09:47:49
Temat: Re: odchylenie standardowe online
Od: "slawek" <s...@h...pl>

Użytkownik "bartekltg" <b...@g...com> napisał w wiadomości grup
dyskusyjnych:jgihb1$dog$...@n...news.atman.pl...
> Ale co to kogo obchodzi. Jak stosować reglin wiadomo.

Co to jest `reglin` ? Odmiana jakaś bylin?

> Można sumę kwadratów, można sumę wartośći bezwzględnych błędu,
> można wszytko co jest normą.

Nie, nie można. Poczytaj sobie nt. (logarytmicznej) funkcji wiarygodności.

> Tyle, że w naszym przypadku (przeprowadzania regresji) nie musza
> to być niepewności pomiarowe!

Oczywiście że nie muszą - i wtedy nazywanie tych odchyleń błędami jest
nieuprawnione.

> Rozumiesz tekst pisany? Gdy błędy sa takie a takie to
> teg lin jest w pewnym sensie najlepsza. Teraz pojął?

Udowodnij, że jest najlepsza. Bo jak na razie, to np. stosowanie estymacji
solidnej (zamiast regresji liniowej) daje np. o jeden odwiert mniej (przy
poszukiwaniu ropy), czyli oszczędność rzędu 2 do 3 milionów dolarów.

> Funkcja to nie napis, ale relacja między dwoma zbiorami.
> y=1 NIE JEST funkcją z x w y.

Ciekawe, ciekawe: zaniknąłeś funkcję stałą. Dałeś się podejść jak dziecko:
popatrz, jest y = 1, czyli po prostu "współczynnik kierunkowy" jest zero.
lol

Np. prof. Lei "Geometria analityczna": ibidem jest przedstawione równanie
prostej na płaszczyźnie jako A x + B y = C, gdzie A, B, C to stałe.
Oczywistość możliwości przyjęcia A = 0 nie wymaga komentarza, podobnie jak
"ta druga" możliwość B = 0 . Jak jeszcze masz wątpliwości (tzn. nie
ukończyłeś porządnej szkoły a samemu też uczyć się ci nie chciało dotąd), to
polecam lekturę Sawyer'a, który wprost tłumaczy dlaczego np. x = 1 jest
funkcją równie dobrą jak y = x + 1 .

[ pokaż wiadomość z nagłówkami ]

do góry
27. Data: 2012-02-04 09:50:49
Temat: Re: odchylenie standardowe online
Od: " M.M." <m...@g...pl>

bartekltg <b...@g...com> napisał(a):

> W dniu 2012-02-04 08:56, M.M. pisze:
> > bartekltg<b...@g...com> napisaĹ(a):
> >
> >>> Oj! SkĂÂd to wiesz?! DaÄšÂoby siĂÂ np. sprawdziĂÂ testem nieparametr
> ycznym,
> >>> lecz... nie w kaÄšĹşdym przypadku bÄšÂĂÂdy sĂÂ opisane tzw. rozkÄšÂad
> em normalnym
> >> .
> >>
> >> Rozumiesz tekst pisany? Gdy bÄšÂĂÂdy sa takie a takie to
> >> teg lin jest w pewnym sensie najlepsza. Teraz pojĂÂÄšÂ?
> >
> > Regresja liniowa to w ogole wdzieczna metoda. Odznacza sie mala
> > zlozonoscia i jednoznacznosc wyniku. Mozna miec caly dysk zawalony
> > danymi i bez problemu znalezc 2-3tys liniowych parametrow.
>
> Z ta maĹÄ zĹoĹźonoĹciÄ aĹź tak bym nie przesadzaĹ.
Trzeba zbudowac macierz N x (N+1) gdzie N to ilosc parametrow.
3tys parametrow daje rozmiar 9mln liczb w macierzy. Czyli
mamy 9mln operacy typu A[ i * N + j ] += input[i] * input[j];
Ile to moze trwac? Okolo 1-10ms? To mamy okolo 100-1000 wektorow
na sekunde na jednym rdzeniu. Czyli na 6 rdzeniach na godzine mamy
od okolo 20 do 200 mln rekordow. W porownaniu do optymalizacji
nieliniowych smiem nazywac to super wydajnoscia :)

> Z samej regresji przyjdzmy do prawdziwego zadadnienie,
> czyli najmniejszych kwadratĂłw.
> Macierz X, parametry b, wyniki y.
> Szukamy b takiego, aby wektor Xb-y miaĹ najmniejszÄ dĹugoĹÄ.
>
> X jest rozmiaru n=[iloĹÄ zmiennych] na m=[iloĹÄ prĂłbek].
>
> RozwiÄzanie tego rĂłwnaniem normalnym sprowadza siÄ
> do stworzenia ukĹadu rĂłwnaĹ z macierzÄ n x n, czyli
> rzeczywiĹcie maĹego, a X^t*X moĹźna policzyÄ w miarÄ
> sprawnie majÄc peĹne X na dysku. Ale ta metoda
> jest kiepskawa numerycznie (uwarunkowanie
> nam siÄ skwadratowaĹo, a dla duĹźych X i tak byĹo
> najprawdopodobniej niemaĹe).
Trzeba chociaz rozwiazanie podstawic do rownania i zwykle
sprawdzenie zorbic. Dla moich danych nie mialem klopotow
ze stabilnoscia. Uzywalem tylko zwyklego double i eliminacji
gaussa napisanej na kolanie.

> Inne popularne metody ktĂłre nie majÄ tego problemu
> korzystajÄ z jakiĹ rozkĹadĂłw X. Ale wtedy niewygodnie
> to zrobiÄ na dysku:) No i ma te swoje n^3 czasu.
Czyli iteracyjnie na dysku. Rozmawialismy o tym jakis
czas temu na tej grupie (albo na C++). Oczywista podstawa to
sekwencyjny odczyt z dysku. Wtedy mialem bardzo specyficzne
dane, praktycznie po 5ciu przebiegach najprostszym algorytmem
uzyskiwalem zadowalajaca dokladnosc.

> Chyba, Ĺźe masz jakiĹ pomysĹ. KiedyĹ byĹa tu (albo
> w okolicy) doĹÄ powaĹźna dyskusja na ten temat.
Pewna ilosc parametrow traktowalem jako jedna stala, a
dla pozostalych budowalem zwykla macierz i rozwiazywalem
eliminacja gaussa. W nastepnym przebiegu inne parametrytry
traktowalem jak stala i tak w kolo az kazdy parametr
byl uwzgledniony X razy. Pewnie sa znane ciekawe metody
wyboru tych parametrow ktore w kolejnej iteracji potraktowac
jako stala, ja korzystalem z najprostszej, czyli z losowej z
kontrola powtorzen.

Ale ostatecznie lepsze rezultaty byly dla okolo 500-3000 parametrow i
nie bylo potrzeby zajezdzania dyskow.

Pozdrawiam

--
Wysłano z serwisu Usenet w portalu Gazeta.pl -> http://www.gazeta.pl/usenet/

[ pokaż wiadomość z nagłówkami ]

do góry
28. Data: 2012-02-04 10:16:58
Temat: Re: odchylenie standardowe online
Od: "slawek" <s...@h...pl>

Użytkownik "M.M." <m...@g...pl> napisał w wiadomości grup
dyskusyjnych:jgioan$lg3$...@i...gazeta.pl...
> Regresja liniowa to w ogole wdzieczna metoda. Odznacza sie mala
> zlozonoscia i jednoznacznosc wyniku. Mozna miec caly dysk zawalony
> danymi i bez problemu znalezc 2-3tys liniowych parametrow.

Problem nie jest w tym, że można. Problem jest w tym, czy to co się znalazło
ma jakikolwiek sens.

Dla przykładu podaje się zwykle korelację pomiędzy liczbą bocianów a liczbą
urodzeń. Czyli dzieci przynosi bocian. Bingo!

Podstawą jest dobry model (wymaga znajomości danej gałęzi wiedzy). Potem
można dopasowywać, szukać współczynników, stosować metody. Ale wydaje mi
się, że 90% "badaczy" nie ma pojęcia, jak taki model mógłby wyglądać. Stąd
próbują z wynikami "coś zrobić". Wybierają regresję liniową, bo taka opcja
jest w programie którym rysowali dane (często jest to Excel, ambitniejsi
robią to w Matlabie).

Sens urywa się już przy kilkunastu parametrach. Przy 2000 parametrach układ
musiałby mieć liczbę stopni swobody liczoną w milionach, aby uzasadnić że
parametrów ma być właśnie 2000 a nie 1999 . Old-gold Minuit miał hardcoded
150, ale i tak było to na wyrost. Wszystko co ma więcej niż 15 parametrów
wygląda podejrzanie gdy macierz kowariancji jest nietrywialna. Nawet "cały
dysk" (czyli 1TB, czyli 10^12 / 8 fp, czyli około 10 miliardów rekordów,
np. po jednym na każdego człowieka) nie tłumaczy istnienia występujących w
modelu 2000 liniowych parametrów bez kolejnych 200 000 parametrów
nieliniowych.

[ pokaż wiadomość z nagłówkami ]

do góry
29. Data: 2012-02-04 12:35:25
Temat: Re: odchylenie standardowe online
Od: " M.M." <m...@g...pl>

slawek <s...@h...pl> napisał(a):

>
> Użytkownik "M.M." <m...@g...pl> napisał w wiadomości grup
> dyskusyjnych:jgioan$lg3$...@i...gazeta.pl...
> > Regresja liniowa to w ogole wdzieczna metoda. Odznacza sie mala
> > zlozonoscia i jednoznacznosc wyniku. Mozna miec caly dysk zawalony
> > danymi i bez problemu znalezc 2-3tys liniowych parametrow.
>
> Problem nie jest w tym, że można. Problem jest w tym, czy to co się znalazło
> ma jakikolwiek sens.
Tez tak uwazam.

> Dla przykładu podaje się zwykle korelację pomiędzy liczbą bocianów a liczbą
> urodzeń. Czyli dzieci przynosi bocian. Bingo!
Zdaje sie ze ostatnio na te okolicznosc podawales jak statystycznie
probowano ustalic co powoduje raka szyjki macicy :) Zgadzam sie ze wyniki
moga niewiele roznic sie od wrozenia z fusow.

> Podstawą jest dobry model (wymaga znajomości danej gałęzi wiedzy). Potem
> można dopasowywać, szukać współczynników, stosować metody. Ale wydaje mi
> się, że 90% "badaczy" nie ma pojęcia, jak taki model mógłby wyglądać. Stąd
> próbują z wynikami "coś zrobić". Wybierają regresję liniową, bo taka opcja
> jest w programie którym rysowali dane (często jest to Excel, ambitniejsi
> robią to w Matlabie).
A no wlasnie ja z reguly nie wiedzialem nic o modelu.

Od pewnego czasu uzywam regresji liniowej do tuningu programu
szachowego (a dokladnie do parametrow funkcji oceniajacej).

Najpierw recznie wpisuje funkcje nieliniowa ktora zamienia plansze
na wektor 15-50 liczb calkowitych. Czyli kazdy uklad ma przypisany
wektor E[1..N]. Nastepnie szukam wektora parametrow P[1..N], takiego aby
suma E[i] * P[i] najlepiej oszacowala czy uklad jest wygrany czy
przegrany.

Poczatkowo program ma losowe wartosci w P i rozgrywa okolo 20-30 gier.
Uklady z gier zamieniam na wektory E. Jesli wygraly biale, to kolejnym
ukladom z rozgrywki przypisuje wartosci od 0 do +1000, jesli czarne,
to od 0 do -1000. No i potem wiadomo, uklad rownan normalnych, wyliczam
P, nastepne 20-30 gier... i tak w kolko.

Obserwuje ze metoda bardzo szybko znajduje rozsadne wartosci P. Czasami
juz po 300 grach program osiaga swoj szczyt sily. Potem sila gry lekko
spada i utrzymuje sie na stalym poziomie, chocbym nawet milion gier
rozegral.

No i coz to wszystko ma wspolnego z tym czy model znamy czy nie znamy?
Otoz jesli jeden model uzyskal wynik 100elo a drugi 200elo to uznaje ze
ten 200elo jest bardziej dokladny :) Co moge zrobic wiecej? Praktycznie
kazdy sposob poszukiwania zaleznosci nieliniowych zawiodl, a wyprobowalem
ich bardzo duzo. Regresja liniowa przynajmniej ma taka zalete ze wyniki
dla pliku 1GB mam w 30 sekund.

> Sens urywa się już przy kilkunastu parametrach.
Na szachach tez cos takiego obserwuje. Zastosowanie 10-20 parametrow daje
ogromny i wyrazny przyrost sily gry. Dodanie nastepnych 30 parametrow
zwieksza sile gry o jakies ulamki procenta na parametr. Nie zaobserwowalem
jeszcze nigdy aby uzycie wiekszej ilosci parametrow niz 50 dawalo
jakiekolwiek polepszenie.

Pozdrawiam

--
Wysłano z serwisu Usenet w portalu Gazeta.pl -> http://www.gazeta.pl/usenet/

[ pokaż wiadomość z nagłówkami ]

do góry
30. Data: 2012-02-04 13:38:22
Temat: Re: odchylenie standardowe online
Od: Roman W <b...@g...pl>

On Thursday, February 2, 2012 6:23:30 PM UTC, slawek wrote:

> Typowym przykładem jest np. regresja liniowa. O, to proste! A potem ktoś
> przychodzi i wprowadza sekwencję (0, 1), (0, 2), (0, 3).

Pozwole sobie skomentowac dyskusje odpowiadajac na oryginalny post ktory ja zaczal,
bo straszne bzdury tam padaly, i sluchac hadko.

Regresja liniowa nie wymaga, zeby dane ukladaly sie w wykres funkcji
jednowartosciowej. Regresja liniowa modeluje problem jako model deterministyczny +
czynniki losowe. Obecnosc w zbiorze danych par (X,Y1), (X,Y2) itd. oznacza, ze masz
kilka realizacji czynnika losowego dla tej samej wartosci X. To jest OK.

W podanym przez Ciebie przykladzie problem nie polega na tym, ze dla jednego X masz
wiele Y, tylko ze masz tylko jeden X. Jezeli wprowadzisz zbior danych:

{ (0, 1) }

to masz jednoznaczna funkcje, ale regresja liniowa tez nie zadziala, bo wymaga co
najmniej dwoch roznych wartosci X.

Natomiast taki zbior danych

{ (0,1), (0,1.2), (1,2) }

jest poprawny.

RW

[ pokaż wiadomość z nagłówkami ]

do góry