-
Path: news-archive.icm.edu.pl!news.icm.edu.pl!newsfeed.pionier.net.pl!3.eu.feeder.erj
e.net!feeder.erje.net!news2.arglkargh.de!news.mixmin.net!eternal-september.org!
reader02.eternal-september.org!.POSTED!not-for-mail
From: "Andrzej A. Filip" <a...@o...eu>
Newsgroups: pl.comp.www
Subject: Re: Sczytywanie skryptem Amazon Top100 [wget (User-Agent) rulez? Nie.]
Date: Sun, 13 Mar 2022 20:56:26 +0100 (CET)
Organization: It is for me to know and for you to find out.
Lines: 26
Message-ID: <a...@w...eu>
References: <a...@w...eu> <622875ce$0$500$65785112@news.neostrada.pl>
<a...@w...eu> <6229ab7a$0$488$65785112@news.neostrada.pl>
<a...@w...eu> <a...@w...eu>
<622e4561$0$464$65785112@news.neostrada.pl>
Mime-Version: 1.0
Content-Type: text/plain; charset=utf-8
Content-Transfer-Encoding: 8bit
Injection-Info: reader02.eternal-september.org;
posting-host="53b06414f66020890f2d203498b9a36a";
logging-data="31549";
mail-complaints-to="a...@e...org";
posting-account="U2FsdGVkX1+o7vMXcnhAUcUWxJ9w0Ifx"
Cancel-Lock: sha1:mcSnGVTgGSXGbopkjY9V1BZpXDs= sha1:+MLmAQMzzp2oL4PhxNHIDCneJIw=
Xref: news-archive.icm.edu.pl pl.comp.www:403709
[ ukryj nagłówki ]Roman Tyczka <r...@h...you.spammer> pisze:
> On 11.03.2022 07:31, Andrzej A. Filip wrote:
>> Sugestia przestała był użyteczna. Amazon blokuje User-Agent wget i
>> samego wget "zależnie od fazy księżyca". Kilka razy zadziałało a
>> teraz blokuje dostęp prawie zawsze.
>> PO prostu użyje czego innego to śledzenia nowości z kategorii
>> książek
>> które mnie interesują "w akceptowalnym dla mnie formacie".
>
> Zatem sprawdź curla, on ma większe możliwości niż wget.
> Np. zmiana user agenta:
> curl -A "moj osobisty browser" adres
Ależ wget raz czy dwa dostał wszystkie 50 wpisów na stronie
(zamiast początkowych 30) zanim zaczął dostawać od amazona
"503: Service Unavailable". [Wpisy 31-50 daje javascript]
A co do "User-Agent:" : to z czego korzystam też pozwala to ustawić ale
wygląda że amazon nie tylko to bierze pod uwagę>=. Moje oskryptowanie
radzi sobie nawet z captha (z moją "ręczną" pomocą). Kiedyś amazon
pytał co chwilę, jak zaczął dostawać captcha to (w końcu) przestał.
Użycie Lynx-a jako browsera (czysto tekstoweggo) też nie pomogło.
--
Andrzej A. Filip
Następne wpisy z tego wątku
- 15.03.22 09:46 Tomek
- 15.03.22 12:18 Andrzej A. Filip
Najnowsze wątki z tej grupy
- is it live this group at news.icm.edu.pl
- php, linki z nazwami a $_GET, SEO
- www polityka pl captcha
- dyktatura brudnego palucha
- www.znanylekarz.pl
- Czy pytanie o sczytywanie stron programami/skryptami to tu?
- Grupy webdevowe
- Jak wydrukować stronę?
- IIS, kilka witryn
- linki <a href="/strona.php"> (ze slashami)
- co rozszerza stronę??
- responsywny akapit <p>
- Czy istnieje jakiś emulator przeglądarek pod Mac'a?
- taka sama konfiguracja dla localhost i produkcji
- TypeScript - jak uzyskać zmienne prywatne? Gdzie korzyści z TS?
Najnowsze wątki
- 2024-04-24 Wrocław => Head of Sales (IT services/products field) <=
- 2024-04-24 Warszawa => Spedytor międzynarodowy <=
- 2024-04-23 Dostałem nową kartę
- 2024-04-23 Re: Głośniki
- 2024-04-23 Re: Głośniki
- 2024-04-23 Fwd: Re: Głośniki
- 2024-04-23 Re: Głośniki
- 2024-04-23 Białystok => Senior Rust Software Engineer <=
- 2024-04-23 Warszawa => Senior PHP Developer (Symfony) <=
- 2024-04-23 Czy prawo okresli granice chamstwa Jońskiego?
- 2024-04-23 Warszawa => Manager Sprzedaży <=
- 2024-04-23 Kraków => Service Leader/PLC Programmer with German <=
- 2024-04-23 Białystok => Senior Software Engineer PHP (BillPro) Kontraktor <=
- 2024-04-23 Kraków => Mid/Senior QA Engineer <=
- 2024-04-23 Kraków => Lider Serwisu/Programista PLC z językiem niemieckim <=