-
Data: 2015-01-19 21:40:56
Temat: Re: Jak gromadzić informacje?
Od: Kviat <kviat@NIE_DLA_SPAMUneostrada.pl> szukaj wiadomości tego autora
[ pokaż wszystkie nagłówki ]W dniu 2015-01-19 o 18:42, Marek pisze:
> Witam,
>
> W zasadzie znam odpowiedź ale chciałbym ją uzyskać od Was. Może macie
> inne przemyślenia niż ja. Mianowicie problem jest taki: pewna firma
> chciałby na bieżąco mieć raporty jakie ceny oferuje jej konkurencja na
> każdy z oferowanych produktów na ich stronach WWW, a ta jest liczna.
Oferta jest liczna czy konkurencja jest liczna? ;)
> Bazowanie na wyszukiwarce Google jest uciążliwe i bardzo mało dokładne a
> ponadto gdyby jakiś automat miał korzystać z ich wyników wyszukiwania,
Jeżeli ta konkurencja to jedna czy dwie (czy kilka - w sensie niedużo)
witryny (sklepy?) to parsuj te witryny.
Piszę "niedużo" bo dla każdej witryny konkurencji musiałbyś pisać inny
parser. Jak takich konkurentów/witryn jest dużo, to dużo czasu zajmie ci
napisanie parsera/ów...
W telegraficznym skrócie...
Jeżeli dany towar w danej witrynie ma zawsze stały adres (np.
www.towary.eu/towar/1, towar) i ma stały szablon, w którym cena
wyświetlana jest w jakimś stałym miejscu (albo charakterystycznie
otagowana) to sprawa jest prosta.
A jeszcze lepiej jak adresy towarów są podobne:
www.towary.eu/towary/1, towar
www.towary.eu/towary/2, towar1
www.towary.eu/towary/3, towar2
itd..
parsujesz w pętli podstrony i już.
> to Google zablokowałyby go dość szybko.
Jak admin konkurencyjnej witryny jest ogarnięty zrobi to samo...
Musiałbyś dysponować sporym zapleczem, albo na tyle rzadko parsować żeby
się nie zorientował. Jak ma duży ruch to może się nie zorientuje zbyt
szybko.
> Czy takie przedsięwzięcie da się w ogóle zrealizować? Jeśli tak, to jak
> by mogło to hipotetycznie działać?
Zapuszczasz skrypt parsujący w cronie raz/dwa/trzy (niepotrzebne
skreślić) razy dziennie i niech wysyła ci raport na maila.
Pozdrawiam
Piotr
Następne wpisy z tego wątku
Najnowsze wątki z tej grupy
- UWAGA: MAM PODEJRZENIE, ŻE onet.pl DOKONUJE ATAKÓW!!!
- Komisja sejmowa odrzuca petycję ws. obowiązkowych kanałów RSS na stronach podmiotów publicznych
- kol. sukces po polsku: "Samurai Labs. Technologia do zapobiegania samobójstwom"
- Wściekli obywatele spalili budynek parlamentu Nepalu [bo odcięli im amerykańskie serwery społecznościowe - przyp. JMJ]
- UWAGA: MAM PODEJRZENIE, ŻE trojmiasto.pl DOKONUJE ATAKÓW
- Cenzura na wolnemedia.net - likwidacja codziennej sekcji "Sygnały zauważone"
- Nowe style na energokod.pl
- Jak działa hosting w którym wykupuje się sam serwer i domenę, bez IP?
- Perfidne ataki krakerów z KRLD na skrypciarzy JS i Pajton
- Do sądu trafił pozew zbiorowy przeciw Google'owi - oskarżenie o praktyki monopolistyczne na rynku reklamy internetowej
- Jakie znacie działające serwery grup dyskusyjnych?
- is it live this group at news.icm.edu.pl
- php, linki z nazwami a $_GET, SEO
- www polityka pl captcha
- dyktatura brudnego palucha
Najnowsze wątki
- 2026-01-11 ciekawostka prawno-obyczajowa
- 2026-01-10 Przeprosiny
- 2026-01-10 Kominiarze
- 2026-01-10 Zagadka radiowa
- 2026-01-10 Prostownik
- 2026-01-09 EKOFASZYŚCI DO NAUKI Chiny odpaliły reaktor na tor. Zachód przespał ten moment? - AstroSzort
- 2026-01-09 Sebastian M
- 2026-01-09 weto nowelizacji ustawy o ś.u.d.e. (wz. DSA)
- 2026-01-09 Warszawa => Dynamics 365 Commerce/POS Developer <=
- 2026-01-09 Ładowanie w 13 minut
- 2026-01-08 Umiejętność tankowania na egzaminie z prawa jazdy
- 2026-01-08 Nowy akumulator Donut Lab
- 2026-01-08 Komenda policji nie ma nic wspólnego ze sprawą zgwałcenia policjantki
- 2026-01-08 Pilot do zamka/bramy
- 2026-01-08 Ślad węglowy




5 Najlepszych Programów do Księgowości w Chmurze - Ranking i Porównanie [2025]