-
Path: news-archive.icm.edu.pl!news.icm.edu.pl!newsfeed.pionier.net.pl!3.eu.feeder.erj
e.net!feeder.erje.net!news2.arglkargh.de!news.mixmin.net!eternal-september.org!
reader02.eternal-september.org!.POSTED!not-for-mail
From: "Andrzej A. Filip" <a...@o...eu>
Newsgroups: pl.comp.www
Subject: Re: Sczytywanie skryptem Amazon Top100 [wget (User-Agent) rulez? Nie.]
Date: Sun, 13 Mar 2022 20:56:26 +0100 (CET)
Organization: It is for me to know and for you to find out.
Lines: 26
Message-ID: <a...@w...eu>
References: <a...@w...eu> <622875ce$0$500$65785112@news.neostrada.pl>
<a...@w...eu> <6229ab7a$0$488$65785112@news.neostrada.pl>
<a...@w...eu> <a...@w...eu>
<622e4561$0$464$65785112@news.neostrada.pl>
Mime-Version: 1.0
Content-Type: text/plain; charset=utf-8
Content-Transfer-Encoding: 8bit
Injection-Info: reader02.eternal-september.org;
posting-host="53b06414f66020890f2d203498b9a36a";
logging-data="31549";
mail-complaints-to="a...@e...org";
posting-account="U2FsdGVkX1+o7vMXcnhAUcUWxJ9w0Ifx"
Cancel-Lock: sha1:mcSnGVTgGSXGbopkjY9V1BZpXDs= sha1:+MLmAQMzzp2oL4PhxNHIDCneJIw=
Xref: news-archive.icm.edu.pl pl.comp.www:403709
[ ukryj nagłówki ]Roman Tyczka <r...@h...you.spammer> pisze:
> On 11.03.2022 07:31, Andrzej A. Filip wrote:
>> Sugestia przestała był użyteczna. Amazon blokuje User-Agent wget i
>> samego wget "zależnie od fazy księżyca". Kilka razy zadziałało a
>> teraz blokuje dostęp prawie zawsze.
>> PO prostu użyje czego innego to śledzenia nowości z kategorii
>> książek
>> które mnie interesują "w akceptowalnym dla mnie formacie".
>
> Zatem sprawdź curla, on ma większe możliwości niż wget.
> Np. zmiana user agenta:
> curl -A "moj osobisty browser" adres
Ależ wget raz czy dwa dostał wszystkie 50 wpisów na stronie
(zamiast początkowych 30) zanim zaczął dostawać od amazona
"503: Service Unavailable". [Wpisy 31-50 daje javascript]
A co do "User-Agent:" : to z czego korzystam też pozwala to ustawić ale
wygląda że amazon nie tylko to bierze pod uwagę>=. Moje oskryptowanie
radzi sobie nawet z captha (z moją "ręczną" pomocą). Kiedyś amazon
pytał co chwilę, jak zaczął dostawać captcha to (w końcu) przestał.
Użycie Lynx-a jako browsera (czysto tekstoweggo) też nie pomogło.
--
Andrzej A. Filip
Następne wpisy z tego wątku
- 15.03.22 09:46 Tomek
- 15.03.22 12:18 Andrzej A. Filip
Najnowsze wątki z tej grupy
- is it live this group at news.icm.edu.pl
- php, linki z nazwami a $_GET, SEO
- www polityka pl captcha
- dyktatura brudnego palucha
- www.znanylekarz.pl
- Czy pytanie o sczytywanie stron programami/skryptami to tu?
- Grupy webdevowe
- Jak wydrukować stronę?
- IIS, kilka witryn
- linki <a href="/strona.php"> (ze slashami)
- co rozszerza stronę??
- responsywny akapit <p>
- Czy istnieje jakiś emulator przeglądarek pod Mac'a?
- taka sama konfiguracja dla localhost i produkcji
- TypeScript - jak uzyskać zmienne prywatne? Gdzie korzyści z TS?
Najnowsze wątki
- 2024-05-08 Osoby które znają informacje tajne
- 2024-05-08 doprowadzenie przymusowe świadka
- 2024-05-08 Opel? Ale jaki Opel?? A może nie Opel?
- 2024-05-08 Znów czary (albo niewiedza) - tym razem fotowoltaika
- 2024-05-08 Chess
- 2024-05-08 Gruby pasożyt nasyła tajną policję na aktywistę z Rzeszy działającego w SZAP!
- 2024-05-08 Chess
- 2024-05-08 IZERA - A może jedna Tusk nie ZDOŁA tego ZAORAĆ
- 2024-05-08 Vitruvian Man - parts 7-11a
- 2024-05-08 Vitruvian Man - parts 7-11a
- 2024-05-08 Warszawa => Interactive/Experience Designer <=
- 2024-05-08 Koniecznie potrzebuję kampera...
- 2024-05-08 Gorzów Wielkopolski => Consultant/Implementer Comarch ERP XL <=
- 2024-05-08 => Solution Architect (secure communication and IoT solutions) <=
- 2024-05-08 Warszawa => Junior Rekruter <=