-
Path: news-archive.icm.edu.pl!news.gazeta.pl!not-for-mail
From: " M.M." <m...@g...pl>
Newsgroups: pl.comp.programming
Subject: Funkcja błędu
Date: Thu, 26 Jul 2012 16:46:52 +0000 (UTC)
Organization: "Portal Gazeta.pl -> http://www.gazeta.pl"
Lines: 37
Message-ID: <jurs9s$2b2$1@inews.gazeta.pl>
NNTP-Posting-Host: localhost
Content-Type: text/plain; charset=ISO-8859-2
Content-Transfer-Encoding: 8bit
X-Trace: inews.gazeta.pl 1343321212 2402 172.20.26.234 (26 Jul 2012 16:46:52 GMT)
X-Complaints-To: u...@a...pl
NNTP-Posting-Date: Thu, 26 Jul 2012 16:46:52 +0000 (UTC)
X-User: mariotti
X-Forwarded-For: 89.229.34.123
X-Remote-IP: localhost
Xref: news-archive.icm.edu.pl pl.comp.programming:198903
[ ukryj nagłówki ]Hey
Mamy jakieś zadanie samo-uczenia się. Mieszanka uczenia ze wzmocnieniem i z
nauczycielem. Agent trafia do środowiska. W środowisku podejmuje decyzje,
wykonuje jakieś ruchy, w końcu osiąga sukces albo porażkę. Ze stanów
środowiska (jakie to stany są osiągane po ruchach) budowane są wektory
uczące. Każdy wektor uczący ma wejście i wyjście. Wejście opisuje stan
środowiska po ruchu, a wyjście to liczby malejące lub rosnące w zależności
od tego czy agent w środowisku osiągnął porażkę czy sukces[*]. Na tak
zbudowanych wektorach uczących przeprowadzane jest uczenie z nauczycielem.
Po pewnym czasie uczenia z nauczycielem agent znowu trafia do środowiska,
znowu buduje wektory uczące (a tym samym powiększa zbiór uczący), znowu
jest uczenie z nauczycielem i tak w kółko.
Szukam wszelkich materiałów i informacji na temat tego jak w różnych
praktycznych zastosowaniach dobierano funkcję błędu, aby efektywność
uczenia była możliwie duża. Obserwuję na różnych zadaniach (głównie
grach planszowych) że metody tego typu bardzo szybko uzyskują
dobre wyniki, natomiast nigdy jeszcze nie zaobserwowałem aby wyniki
były optymalne. Zwykle jako funkcji błędu używam po postu średnich
kwadratów, jednak podejrzewam że funkcja błędu powinna być zdecydowanie
bardziej wyrafinowana, aby uzyskiwać wyniki w pobliżu optimum. Co o
tym sądzicie? Jakie są znane bardziej wyrafinowane funkcje błędu które
przynosiły w innych zadaniach dobre rezultaty?
[*]
Np.:
gdy było 5 ruchów i na końcu porażka:
-1/5 -1/4 -1/3 -1/2 -1/1
gdy 7 ruchów i na końcu sukces to:
+1/7 +1/6 +1/5 +1/4 +1/3 +1/2 +1/1
Pozdrawiam
--
Wysłano z serwisu Usenet w portalu Gazeta.pl -> http://www.gazeta.pl/usenet/
Najnowsze wątki z tej grupy
- Na grupie comp.os.linux.advocacy CrudeSausage twierdzi, że Micro$lop używa SI do szyfrowania formatu dok. XML
- Błąd w Sofcie Powodem Wymiany 3 Duńskich Fregat Typu Iver Huitfeldt
- Grok zaczął nadużywać wulgaryzmów i wprost obrażać niektóre znane osoby
- Can you activate BMW 48V 10Ah Li-Ion battery, connecting to CAN-USB laptop interface ?
- We Wrocławiu ruszyła Odra 5, pierwszy w Polsce komputer kwantowy z nadprzewodzącymi kubitami
- Ada-Europe - AEiC 2025 early registration deadline imminent
- John Carmack twierdzi, że gdyby gry były optymalizowane, to wystarczyły by stare kompy
- Ada-Europe Int.Conf. Reliable Software Technologies, AEiC 2025
- Linuks od wer. 6.15 przestanie wspierać procesory 486 i będzie wymagać min. Pentium
- ,,Polski przemysł jest w stanie agonalnym" - podkreślił dobitnie, wskazując na brak zamówień.
- Rewolucja w debugowaniu!!! SI analizuje zrzuty pamięci systemu M$ Windows!!!
- Brednie w wiki - hasło Dehomag
- Perfidne ataki krakerów z KRLD na skrypciarzy JS i Pajton
- Instytut IDEAS może zacząć działać: "Ma to być unikalny w europejskiej skali ośrodek badań nad sztuczną inteligencją."
- Instytut IDEAS może zacząć działać: "Ma to być unikalny w europejskiej skali ośrodek badań nad sztuczną inteligencją."
Najnowsze wątki
- 2025-08-06 Gdynia => Konsultant wdrożeniowy (systemy controlingowe) <=
- 2025-08-06 Białystok => Inżynier oprogramowania .Net <=
- 2025-08-06 "[...] sejmowe wystąpienie posłanki Klaudii Jachiry, która zakończyła je słowami ,,Sława Ukrainie"."
- 2025-08-05 "Chiny przekraczają w wydobyciu 4 mld ton węgla, Indie i USA ponad 1 mld, a Rosja 500 mln ton [...]"
- 2025-08-05 Panuje się 181 159,42 zł./mies. na posła w 2026r.
- 2025-08-05 "Chiny przekraczają w wydobyciu 4 mld ton węgla, Indie i USA ponad 1 mld, a Rosja 500 mln ton [...]"
- 2025-08-05 Czy cos fi przechodzi przez trafo separujące?
- 2025-08-05 kajaki i promile
- 2025-08-05 Re: Tesla jest bezpieczna, wczoraj spaliła się doszczętnie na Ursynowie i nikomu się nic nie stało
- 2025-08-05 Gdynia => Przedstawiciel handlowy / KAM (branża TSL) <=
- 2025-08-05 Re: Atak na lekarza w Oławie. Policja zatrzymała sprawcę na lotnisku Polska Agencja Prasowa 4 sierpnia 2025, 12:16 FACEBOOK X E-MAIL KOPIUJ LINK W szpitalu w Oławie 37-letni pacjent zaatakował lekarza, po tym, jak ten odmówił mu wypisania długoterminowego
- 2025-08-05 B2B i książka przychodów i rozchodów
- 2025-08-04 Re: Atak na lekarza w Oławie. Policja zatrzymała sprawcę na lotnisku Polska Agencja Prasowa 4 sierpnia 2025, 12:16 FACEBOOK X E-MAIL KOPIUJ LINK W szpitalu w Oławie 37-letni pacjent zaatakował lekarza, po tym, jak ten odmówił mu wypisania długoterminowego
- 2025-08-04 Na grupie comp.os.linux.advocacy CrudeSausage twierdzi, że Micro$lop używa SI do szyfrowania formatu dok. XML
- 2025-08-04 Na grupie comp.os.linux.advocacy CrudeSausage twierdzi, że Micro$lop używa SI do szyfrowania formatu dok. XML