Html Zerlegen mittels VB.net
 Verfasst: Fr 23. Jul 2004, 01:58
Verfasst: Fr 23. Jul 2004, 01:58Ich bin gerade dabei, ein Proggy zu schreiben, das automatisch aus dem Quelltext einer Internetseite bestimmte Daten ausliest. (mit Visual Basic.net)
Um es genauer zu beschreiben, das Programm soll von bestimmten Seiten von http://www.allmusic.com den Pfad zum Album-Cover, das Genre, Kommentare, ect... selbstständig in eine mp3-Datei schreiben.
Im Prinzip ist bereits einiges praktisch und fast alles theoretisch gelöst, doch erweisen sich meine Algorythmen, die nach bestimmten entsprechenden Textstellen suchen, als etwas... lahm.
Nun wollte ich fragen, ob es da nicht einen schnelleren Weg gibt: XML.
Ich kenne mich nicht sonderlich gut damit aus, aber sollten die Webseiten, die allmusic.com liefert nicht zumindest XHTML-kompatibel sein? Das heißt, dass man sie mittels der VisualBasic.net internen XML-Engine praktisch schnell "zerpflücken" können müsste.
Weiters wollte ich dann wissen, ob jemand eine Ahnung hat, wie diese XML-Engine zu bedienen ist. Da ich von VisualBasic 6.0 umgestiegen bin, habe ich damit noch keine Ahnung. (wüsste nichtmal, wo ich sie finden sollte)
PS: der Header, den allmusic.com liefert, lautet: "<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">"
			Um es genauer zu beschreiben, das Programm soll von bestimmten Seiten von http://www.allmusic.com den Pfad zum Album-Cover, das Genre, Kommentare, ect... selbstständig in eine mp3-Datei schreiben.
Im Prinzip ist bereits einiges praktisch und fast alles theoretisch gelöst, doch erweisen sich meine Algorythmen, die nach bestimmten entsprechenden Textstellen suchen, als etwas... lahm.
Nun wollte ich fragen, ob es da nicht einen schnelleren Weg gibt: XML.
Ich kenne mich nicht sonderlich gut damit aus, aber sollten die Webseiten, die allmusic.com liefert nicht zumindest XHTML-kompatibel sein? Das heißt, dass man sie mittels der VisualBasic.net internen XML-Engine praktisch schnell "zerpflücken" können müsste.
Weiters wollte ich dann wissen, ob jemand eine Ahnung hat, wie diese XML-Engine zu bedienen ist. Da ich von VisualBasic 6.0 umgestiegen bin, habe ich damit noch keine Ahnung. (wüsste nichtmal, wo ich sie finden sollte)
PS: der Header, den allmusic.com liefert, lautet: "<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">"