-
Data: 2012-07-26 18:46:52
Temat: Funkcja błędu
Od: " M.M." <m...@g...pl> szukaj wiadomości tego autora
[ pokaż wszystkie nagłówki ]Hey
Mamy jakieś zadanie samo-uczenia się. Mieszanka uczenia ze wzmocnieniem i z
nauczycielem. Agent trafia do środowiska. W środowisku podejmuje decyzje,
wykonuje jakieś ruchy, w końcu osiąga sukces albo porażkę. Ze stanów
środowiska (jakie to stany są osiągane po ruchach) budowane są wektory
uczące. Każdy wektor uczący ma wejście i wyjście. Wejście opisuje stan
środowiska po ruchu, a wyjście to liczby malejące lub rosnące w zależności
od tego czy agent w środowisku osiągnął porażkę czy sukces[*]. Na tak
zbudowanych wektorach uczących przeprowadzane jest uczenie z nauczycielem.
Po pewnym czasie uczenia z nauczycielem agent znowu trafia do środowiska,
znowu buduje wektory uczące (a tym samym powiększa zbiór uczący), znowu
jest uczenie z nauczycielem i tak w kółko.
Szukam wszelkich materiałów i informacji na temat tego jak w różnych
praktycznych zastosowaniach dobierano funkcję błędu, aby efektywność
uczenia była możliwie duża. Obserwuję na różnych zadaniach (głównie
grach planszowych) że metody tego typu bardzo szybko uzyskują
dobre wyniki, natomiast nigdy jeszcze nie zaobserwowałem aby wyniki
były optymalne. Zwykle jako funkcji błędu używam po postu średnich
kwadratów, jednak podejrzewam że funkcja błędu powinna być zdecydowanie
bardziej wyrafinowana, aby uzyskiwać wyniki w pobliżu optimum. Co o
tym sądzicie? Jakie są znane bardziej wyrafinowane funkcje błędu które
przynosiły w innych zadaniach dobre rezultaty?
[*]
Np.:
gdy było 5 ruchów i na końcu porażka:
-1/5 -1/4 -1/3 -1/2 -1/1
gdy 7 ruchów i na końcu sukces to:
+1/7 +1/6 +1/5 +1/4 +1/3 +1/2 +1/1
Pozdrawiam
--
Wysłano z serwisu Usenet w portalu Gazeta.pl -> http://www.gazeta.pl/usenet/
Najnowsze wątki z tej grupy
- Do czego nadaje się QDockWidget z bibl. Qt?
- Bibl. Qt jest sztucznie ograniczona - jest nieprzydatna do celów komercyjnych
- Co sciaga kretynow
- AEiC 2024 - Ada-Europe conference - Deadlines Approaching
- Jakie są dobre zasady programowania programów opartych na wtyczkach?
- sprawdzanie słów kluczowych dot. zła
- Re: W czym sie teraz pisze programy??
- Re: (PDF) Surgical Pathology of Non-neoplastic Gastrointestinal Diseases by Lizhi Zhang
- CfC 28th Ada-Europe Int. Conf. Reliable Software Technologies
- Młodzi programiści i tajna policja
- Ada 2022 Language Reference Manual to be Published by Springer
- Press Release - AEiC 2023, Ada-Europe Reliable Softw. Technol.
- Ada-Europe - AEiC 2023 early registration deadline approaching
- Ada-Europe Int.Conf. Reliable Software Technologies, AEiC 2023
- Ile cykli zajmuje mnożenie liczb 64-bitowych?
Najnowsze wątki
- 2024-05-26 O co chodzi?
- 2024-05-26 PJ autobus-tramwaj
- 2024-05-26 Renault Trafic i lampka z czerwonym STOP
- 2024-05-26 cena pięciocyfrowa
- 2024-05-26 Re: Jak dobra KE "okrada" złą Rosję "dla Ukrainy"
- 2024-05-25 supercap
- 2024-05-25 Sulzbach => Technischer Rollouter (d/m/w) <=
- 2024-05-25 Warszawa => Senior Account Manager <=
- 2024-05-25 Warszawa => Mid PHP Developer (Laravel) <=
- 2024-05-25 Warszawa => Mid PHP Developer (Laravel) <=
- 2024-05-25 Warszawa => Interactive/Experience Designer <=
- 2024-05-25 Warszawa => Key Account Manager <=
- 2024-05-25 Warszawa => SAP WM Consultant / Execution <=
- 2024-05-25 Warszawa => Key Account Manager <=
- 2024-05-25 Re: znów ten wrocław