Ga naar inhoud


Gepagineerd url komt toch op initiële pagina


Earthfinder

Aanbevolen berichten

Hallo,

 

Ik ben bezig met een website om die een andere website crawled.

De website die wordt gecrawled bestaat (meestal) uit meerdere pagina's en dit wordt dan ook in de url weergegeven wanneer bijvoorbeeld naar pagina 2 wordt geklikt.

 

Als ik echter de url van pagina 2 copy-past in de adresbalk, dan kom ik altijd op pagina 1.

 

Het gaat om deze website (ik weet niet of dit helemaal conform de regels is, om de link hier te plaatsen...):

http://www.thuswonen.nl/pageid=35/huuraanbod.html#load

 

Als ik dan op pagina "2" of "volgende" klik, verschijnt de volgende url:

http://www.thuswonen.nl/pageid=35/huuraanbod.html#search=woning&orderby=&page=2&gemeente=Geen%20voorkeur&plaats=Geen%20voorkeur&prijsvan=0&prijstot=Geen%20maximum&woningtype=

 

Als ik deze url copy-paste in de adresbalk, wordt toch de url van pagina 1 geladen:

http://www.thuswonen.nl/pageid=35/huuraanbod.html#load

 

Weet iemand hoe ik dit kan oplossen /omzeilen?

HTPC-Software: LibreELEC 9
HTPC-Hardware: Raspberry Pi 2 + Raspberry Pi 3

Link naar reactie
Delen op andere sites


Een # gaat naar een "anchor" op de pagina (dus in dit geval naar anchor "load") maar wordt ook regelmatig mis/ge-bruikt door javascripts om acties op uit te voeren.

Een & geeft parameters door (terug) aan de server, die dynamische paginas kunnen gebruiken.

 

Dus een "#" vervangen door een "&" maakt het een heel ander iets...

Mijn advies is om het javascript wat op die pagina's gebruikt wordt eens goed door te spitten, om te zien wat er gebeurt...  Er wordt ook aan "SEO" gedaan, zo te zien, dus het zal allemaal iets lastiger worden dan je denkt. (De SEO maakt het lastig(er) om te zien welke pagina's er worden aangeroepen etc)

“Success is not final, failure is not fatal: it is the courage to continue that counts.” ~ Winston Churchill

Link naar reactie
Delen op andere sites

Ik heb een oplossing gevonden voor onderstaande url:

 

 
 
http://www.thuswonen.nl/pageid=35/huuraanbod.html#search=woning&orderby=&page=2&gemeente=Geen%20voorkeur&plaats=Geen%20voorkeur&prijsvan=0&prijstot=Geen%20maximum&woningtype=

 

Door ondestaande url te gebruiken wordt netjes pagina voor pagina door de scraper geleid:

 

http://www.thuswonen.nl/pageid=35/page=#/huuraanbod.html

 

Hierbij is # uiteraard een getal.

Het is misschien niet de meest nette oplossing, maar het werkt prima, voor mij.

HTPC-Software: LibreELEC 9
HTPC-Hardware: Raspberry Pi 2 + Raspberry Pi 3

Link naar reactie
Delen op andere sites

Maak een account aan of log in om te reageren

Je moet een lid zijn om een reactie te kunnen achterlaten

Account aanmaken

Registreer voor een nieuwe account in onze community. Het is erg gemakkelijk!

Registreer een nieuwe account

Inloggen

Heb je reeds een account? Log hier in.

Nu inloggen
  • Wie is er online   0 leden

    • Er zijn geen geregistreerde gebruikers deze pagina aan het bekijken
×
×
  • Nieuwe aanmaken...