Zum Inhalt wechseln

Als Gast hast du nur eingeschränkten Zugriff!


Anmelden 

Benutzerkonto erstellen

Du bist nicht angemeldet und hast somit nur einen sehr eingeschränkten Zugriff auf die Features unserer Community.
Um vollen Zugriff zu erlangen musst du dir einen Account erstellen. Der Vorgang sollte nicht länger als 1 Minute dauern.

  • Antworte auf Themen oder erstelle deine eigenen.
  • Schalte dir alle Downloads mit Highspeed & ohne Wartezeit frei.
  • Erhalte Zugriff auf alle Bereiche und entdecke interessante Inhalte.
  • Tausche dich mich anderen Usern in der Shoutbox oder via PN aus.
 

   

Foto

Frage zu Python Web Scraping (Ajax/Javascript)

- - - - -

  • Bitte melde dich an um zu Antworten
2 Antworten in diesem Thema

#1
darookie

darookie

    Lamer

  • Members
  • PIPPIPPIP
  • Likes
    8
  • 23 Beiträge
  • 9 Bedankt
  • 7111135

Hiho,

leider stoße ich gerade auf Probleme beim Webscraping. Es geht um das Portal von aswo.com. Dort wird der Content nachträglich über Javascript eingefügt, was natürlich beim puren Python unmöglich ist.

 

Das einzige was ich finden konnte war die Möglichkeit über Selenium zu gehen, aber das ist nicht wirklich optimal. Es ist langsam und Fehleranfällig.

 

Gibt es denn andere Möglichkeiten solche Inhalte auszulesen? Wie macht das google etc.?

 

bye

darookie



#2
sup3ria

sup3ria

    Hacker

  • Premium Member
  • Likes
    123
  • 177 Beiträge
  • 50 Bedankt

Du benötigst einen "Headless Browser" der Javascript ausführen kann.

 

Eine ausführliche Liste findest du hier:

Please Login HERE or Register HERE to see this link!

 

Ich verwende gerne PhantomJS mit dem Wrapper Splinter.

#!/usr/bin/python
from splinter import Browser  # pip install splinter # pip install selenium

with Browser('phantomjs') as browser:
	url = 'http://www.aswo.com/index.php?id=56&no_cache=1'
	browser.visit(url)
	print browser.html

Ansonsten kann Ich auch noch ghost.py empfehlen.

 

Ich kann dir auch gerne sonst noch beim parsen helfen falls du genau sagst was du da gescraped haben willst.


Bearbeitet von sup3ria, 22 June 2016 - 20:46 Uhr.

  • darookie gefällt das

#3
darookie

darookie

    Lamer

  • Members
  • PIPPIPPIP
  • Likes
    8
  • 23 Beiträge
  • 9 Bedankt
  • 7111135

Du benötigst einen "Headless Browser" der Javascript ausführen kann.

 

Eine ausführliche Liste findest du hier:

Please Login HERE or Register HERE to see this link!

Danke, genau so ein Feedback / Input habe ich gebraucht. Dann Ärger ich mich nun nicht weiter mit Selenium/Firefox rum :)
Ich meld mich bei Bedarf. Thx!





  Thema Forum Themenstarter Statistik Letzter Beitrag

Besucher die dieses Thema lesen:

Mitglieder: , Gäste: , unsichtbare Mitglieder:


This topic has been visited by 32 user(s)


    0*ptr, 3xc3ll3nt, BlackDante, Born2Hack, Creo, darknide, darookie, dos, Drew, Esox, Flex.Net, Framerater, Kaase, keyb0ardz, kiwitone, Kozuki, m0nk3y, macinchris, NichtDiePolizei, Payload, peppi200, pi^2, pwcca, shok0, sup3ria, superuser123, Swiper, Terrafaux, TEST, tinarchin, Toskom4n, xDevil
Die besten Hacking Tools zum downloaden : Released, Leaked, Cracked. Größte deutschsprachige Hacker Sammlung.