-
Path: news-archive.icm.edu.pl!news.icm.edu.pl!newsfeed.pionier.net.pl!goblin1!goblin.
stu.neva.ru!newsfeed.neostrada.pl!unt-exc-01.news.neostrada.pl!unt-spo-a-01.new
s.neostrada.pl!news.neostrada.pl.POSTED!not-for-mail
Date: Mon, 19 Jan 2015 21:40:56 +0100
From: Kviat <kviat@NIE_DLA_SPAMUneostrada.pl>
User-Agent: Mozilla/5.0 (Windows NT 6.3; WOW64; rv:31.0) Gecko/20100101
Thunderbird/31.4.0
MIME-Version: 1.0
Newsgroups: pl.comp.www
Subject: Re: Jak gromadzić informacje?
References: <m9jfmg$nbl$1@news.icm.edu.pl>
In-Reply-To: <m9jfmg$nbl$1@news.icm.edu.pl>
Content-Type: text/plain; charset=utf-8; format=flowed
Content-Transfer-Encoding: 8bit
Lines: 47
Message-ID: <54bd6bd6$0$25246$65785112@news.neostrada.pl>
Organization: Telekomunikacja Polska
NNTP-Posting-Host: 83.11.170.220
X-Trace: 1421700054 unt-rea-a-02.news.neostrada.pl 25246 83.11.170.220:17645
X-Complaints-To: a...@n...neostrada.pl
Xref: news-archive.icm.edu.pl pl.comp.www:402934
[ ukryj nagłówki ]W dniu 2015-01-19 o 18:42, Marek pisze:
> Witam,
>
> W zasadzie znam odpowiedź ale chciałbym ją uzyskać od Was. Może macie
> inne przemyślenia niż ja. Mianowicie problem jest taki: pewna firma
> chciałby na bieżąco mieć raporty jakie ceny oferuje jej konkurencja na
> każdy z oferowanych produktów na ich stronach WWW, a ta jest liczna.
Oferta jest liczna czy konkurencja jest liczna? ;)
> Bazowanie na wyszukiwarce Google jest uciążliwe i bardzo mało dokładne a
> ponadto gdyby jakiś automat miał korzystać z ich wyników wyszukiwania,
Jeżeli ta konkurencja to jedna czy dwie (czy kilka - w sensie niedużo)
witryny (sklepy?) to parsuj te witryny.
Piszę "niedużo" bo dla każdej witryny konkurencji musiałbyś pisać inny
parser. Jak takich konkurentów/witryn jest dużo, to dużo czasu zajmie ci
napisanie parsera/ów...
W telegraficznym skrócie...
Jeżeli dany towar w danej witrynie ma zawsze stały adres (np.
www.towary.eu/towar/1, towar) i ma stały szablon, w którym cena
wyświetlana jest w jakimś stałym miejscu (albo charakterystycznie
otagowana) to sprawa jest prosta.
A jeszcze lepiej jak adresy towarów są podobne:
www.towary.eu/towary/1, towar
www.towary.eu/towary/2, towar1
www.towary.eu/towary/3, towar2
itd..
parsujesz w pętli podstrony i już.
> to Google zablokowałyby go dość szybko.
Jak admin konkurencyjnej witryny jest ogarnięty zrobi to samo...
Musiałbyś dysponować sporym zapleczem, albo na tyle rzadko parsować żeby
się nie zorientował. Jak ma duży ruch to może się nie zorientuje zbyt
szybko.
> Czy takie przedsięwzięcie da się w ogóle zrealizować? Jeśli tak, to jak
> by mogło to hipotetycznie działać?
Zapuszczasz skrypt parsujący w cronie raz/dwa/trzy (niepotrzebne
skreślić) razy dziennie i niech wysyła ci raport na maila.
Pozdrawiam
Piotr
Następne wpisy z tego wątku
Najnowsze wątki z tej grupy
- Perfidne ataki krakerów z KRLD na skrypciarzy JS i Pajton
- Do sądu trafił pozew zbiorowy przeciw Google'owi - oskarżenie o praktyki monopolistyczne na rynku reklamy internetowej
- Jakie znacie działające serwery grup dyskusyjnych?
- is it live this group at news.icm.edu.pl
- php, linki z nazwami a $_GET, SEO
- www polityka pl captcha
- dyktatura brudnego palucha
- www.znanylekarz.pl
- Czy pytanie o sczytywanie stron programami/skryptami to tu?
- Grupy webdevowe
- Jak wydrukować stronę?
- IIS, kilka witryn
- linki <a href="/strona.php"> (ze slashami)
- co rozszerza stronę??
- responsywny akapit <p>
Najnowsze wątki
- 2025-07-19 Zakrzewo => SAP HCM Consultant <=
- 2025-07-19 Poznań => Konsultant SAP HCM <=
- 2025-07-19 Poznań => SAP HCR Consultant <=
- 2025-07-18 celnicy pobili policjanta
- 2025-07-18 Warszawa => Technik IT - Konfiguracja i Wsparcie Sprzętowe <=
- 2025-07-18 Warszawa => Specjalista ds. Sprzętu IT i Wsparcia Technicznego <=
- 2025-07-18 Białystok => Kotlin Developer <=
- 2025-07-18 Warszawa => Sales Director (Cloud solutions) <=
- 2025-07-18 Spalinowa trauma
- 2025-07-18 Polska => Senior Key Account Manager <=
- 2025-07-18 Białystok => Programista Kotlin <=
- 2025-07-18 Szczecin => Key Account Manager IT <=
- 2025-07-18 Łódź => Programista Mainframe (z/OS, Assembler) <=
- 2025-07-18 Łódź => Mainframe (z/OS, Assembler) Developer <=
- 2025-07-18 Lublin => Delphi Programmer <=