eGospodarka.pl
eGospodarka.pl poleca

eGospodarka.plGrupypl.comp.wwwCzy pytanie o sczytywanie stron programami/skryptami to tu? › Re: Sczytywanie skryptem Amazon Top100 [wget (User-Agent) rulez? Nie.]
  • Path: news-archive.icm.edu.pl!news.icm.edu.pl!newsfeed.pionier.net.pl!3.eu.feeder.erj
    e.net!feeder.erje.net!news2.arglkargh.de!news.mixmin.net!eternal-september.org!
    reader02.eternal-september.org!.POSTED!not-for-mail
    From: "Andrzej A. Filip" <a...@o...eu>
    Newsgroups: pl.comp.www
    Subject: Re: Sczytywanie skryptem Amazon Top100 [wget (User-Agent) rulez? Nie.]
    Date: Sun, 13 Mar 2022 20:56:26 +0100 (CET)
    Organization: It is for me to know and for you to find out.
    Lines: 26
    Message-ID: <a...@w...eu>
    References: <a...@w...eu> <622875ce$0$500$65785112@news.neostrada.pl>
    <a...@w...eu> <6229ab7a$0$488$65785112@news.neostrada.pl>
    <a...@w...eu> <a...@w...eu>
    <622e4561$0$464$65785112@news.neostrada.pl>
    Mime-Version: 1.0
    Content-Type: text/plain; charset=utf-8
    Content-Transfer-Encoding: 8bit
    Injection-Info: reader02.eternal-september.org;
    posting-host="53b06414f66020890f2d203498b9a36a";
    logging-data="31549";
    mail-complaints-to="a...@e...org";
    posting-account="U2FsdGVkX1+o7vMXcnhAUcUWxJ9w0Ifx"
    Cancel-Lock: sha1:mcSnGVTgGSXGbopkjY9V1BZpXDs= sha1:+MLmAQMzzp2oL4PhxNHIDCneJIw=
    Xref: news-archive.icm.edu.pl pl.comp.www:403709
    [ ukryj nagłówki ]

    Roman Tyczka <r...@h...you.spammer> pisze:
    > On 11.03.2022 07:31, Andrzej A. Filip wrote:
    >> Sugestia przestała był użyteczna. Amazon blokuje User-Agent wget i
    >> samego wget "zależnie od fazy księżyca". Kilka razy zadziałało a
    >> teraz blokuje dostęp prawie zawsze.
    >> PO prostu użyje czego innego to śledzenia nowości z kategorii
    >> książek
    >> które mnie interesują "w akceptowalnym dla mnie formacie".
    >
    > Zatem sprawdź curla, on ma większe możliwości niż wget.
    > Np. zmiana user agenta:
    > curl -A "moj osobisty browser" adres

    Ależ wget raz czy dwa dostał wszystkie 50 wpisów na stronie
    (zamiast początkowych 30) zanim zaczął dostawać od amazona
    "503: Service Unavailable". [Wpisy 31-50 daje javascript]

    A co do "User-Agent:" : to z czego korzystam też pozwala to ustawić ale
    wygląda że amazon nie tylko to bierze pod uwagę>=. Moje oskryptowanie
    radzi sobie nawet z captha (z moją "ręczną" pomocą). Kiedyś amazon
    pytał co chwilę, jak zaczął dostawać captcha to (w końcu) przestał.

    Użycie Lynx-a jako browsera (czysto tekstoweggo) też nie pomogło.

    --
    Andrzej A. Filip

Podziel się

Poleć ten post znajomemu poleć

Wydrukuj ten post drukuj


Następne wpisy z tego wątku

Najnowsze wątki z tej grupy


Najnowsze wątki

Szukaj w grupach

Eksperci egospodarka.pl

1 1 1

Wpisz nazwę miasta, dla którego chcesz znaleźć jednostkę ZUS.

Wzory dokumentów

Bezpłatne wzory dokumentów i formularzy.
Wyszukaj i pobierz za darmo: