Discussion:
Abgespeichert als Datei
(zu alt für eine Antwort)
Werner Tann
2022-07-04 06:57:05 UTC
Permalink
Vor langer Zeit habe ich interessante Webseiten "als Datei
abgespeichert", Endung htm, um sie dauerhaft und lokal zu behalten.
Seit einigen Jahren mache ich das nicht mehr, sondern kopiere sie in
Word und erstelle PDFs.

Jetzt habe ich so eine alte htm aufgerufen (weiß nicht, ob damals mit
IE oder Firefox erstellt) und erlebe mein blaues Wunder:

"Webseite sowieso hat die Verbindung abgelehnt", und ich sehe nur ein
graues Fenster.

Äh, was? Ich dachte, lokal abspeichern heißt lokal abspeichern, und
allenfalls funktioniert der Aufruf von Links auf dieser Seite nicht
mehr?

Google Chrome zeigt mir in einem Fenster rechts ein Bild dieser Seite
("Website mit diesem Bild"). Klicke ich drauf, komme ich wieder zu der
alten Seite - die jetzt, das war ja klar - nur die ersten Zeilen des
Beitrags anzeigt, der Rest ist kostenpflichtig.

Es gelingt mir nicht, die alte htm irgendwie lesbar zu machen oder zu
konvertieren, die damals - bilde ich mir ein - offline lesbar gewesen
ist.

Was habe ich am "abspeichern als Datei" nicht verstanden?
Franklin Schiftan
2022-07-04 09:29:31 UTC
Permalink
Post by Werner Tann
Vor langer Zeit habe ich interessante Webseiten "als Datei
abgespeichert", Endung htm, um sie dauerhaft und lokal zu behalten.
Seit einigen Jahren mache ich das nicht mehr, sondern kopiere sie in
Word und erstelle PDFs.
Wieso nach Word kopieren? Die kannst Du doch gleich direkt als PDF
"drucken".

.... und tschüss

Franklin
Werner Tann
2022-07-04 10:25:38 UTC
Permalink
Post by Franklin Schiftan
Wieso nach Word kopieren? Die kannst Du doch gleich direkt als PDF
"drucken".
Bei dieser Lösung habe ich mich ständig über nicht komplette Seiten
geärgert. Heißt: Zwischen PDF Seite 1 und PDF Seite 2 fehlten 1, 2
Zeilen aus der Homepage. Auch kam es vor, dass eine "Fußzeile"
(Fenster o.ä.) so ins PDF exportiert wurde, dass der Lappen die
letzten 3, 4 Zeilen der PDF-Seite überdeckt hat. Und ähnlicher
Blödsinn. Ich musste dann endlos mit der Skalierung herumspielen. Da
kann ich gleich den Umweg über Word machen.

Alles für Chrome. AFAIR war das aber mit Firefox nicht anders.

Weil diese Druckfunktion anscheinend bekanntermaßen nicht das Gelbe
vom Ei ist, gibt es diverse AddOns zum Abspeichern einer Seite als
Bild. Diese haben aber wiederum den Haken, dass sie alle Frames
erfassen und die Schrift oft winzig wird.
Franklin Schiftan
2022-07-04 14:03:14 UTC
Permalink
Post by Werner Tann
Post by Franklin Schiftan
Wieso nach Word kopieren? Die kannst Du doch gleich direkt als PDF
"drucken".
Bei dieser Lösung habe ich mich ständig über nicht komplette Seiten
geärgert. Heißt: Zwischen PDF Seite 1 und PDF Seite 2 fehlten 1, 2
Zeilen aus der Homepage. Auch kam es vor, dass eine "Fußzeile"
(Fenster o.ä.) so ins PDF exportiert wurde, dass der Lappen die
letzten 3, 4 Zeilen der PDF-Seite überdeckt hat. Und ähnlicher
Blödsinn. Ich musste dann endlos mit der Skalierung herumspielen. Da
kann ich gleich den Umweg über Word machen.
Alles für Chrome. AFAIR war das aber mit Firefox nicht anders.
Weil diese Druckfunktion anscheinend bekanntermaßen nicht das Gelbe
vom Ei ist, gibt es diverse AddOns zum Abspeichern einer Seite als
Bild. Diese haben aber wiederum den Haken, dass sie alle Frames
erfassen und die Schrift oft winzig wird.
Hmm, ich habe hier einen PDF-Drucker, der sich systemweit, bei allem, wo
sich was ausdrucken lässt, nutzen lässt - also nichts mit AddOns (nur)
für Browser oder so ...

.... und tschüss

Franklin
Werner Tann
2022-07-04 15:00:02 UTC
Permalink
Post by Franklin Schiftan
Hmm, ich habe hier einen PDF-Drucker, der sich systemweit, bei allem, wo
sich was ausdrucken lässt, nutzen lässt - also nichts mit AddOns (nur)
für Browser oder so ...
Ich habe auch nicht gesagt, dass das eine mit dem anderen
zusammenhängt. Das sind 2 Lösungen, und beide sind nur bedingt
tauglich, kommt immer auf die Seite an.
Franklin Schiftan
2022-07-04 19:08:49 UTC
Permalink
Post by Werner Tann
Post by Franklin Schiftan
Hmm, ich habe hier einen PDF-Drucker, der sich systemweit, bei allem, wo
sich was ausdrucken lässt, nutzen lässt - also nichts mit AddOns (nur)
für Browser oder so ...
Ich habe auch nicht gesagt, dass das eine mit dem anderen
zusammenhängt. Das sind 2 Lösungen, und beide sind nur bedingt
tauglich, kommt immer auf die Seite an.
Also, die von Dir geschilderten Probleme hatte ich mit meiner Lösung
noch nie ... zumindest kann ich mich nicht daran erinnern ...

.... und tschüss

Franklin
Michael Landenberger
2022-07-05 06:50:23 UTC
Permalink
Post by Franklin Schiftan
Post by Werner Tann
Vor langer Zeit habe ich interessante Webseiten "als Datei
abgespeichert", Endung htm, um sie dauerhaft und lokal zu behalten.
Seit einigen Jahren mache ich das nicht mehr, sondern kopiere sie in
Word und erstelle PDFs.
Wieso nach Word kopieren? Die kannst Du doch gleich direkt als PDF
"drucken".
Dann ist man aber darauf angewiesen, dass der Ersteller der Seite auch die
Druckfunktion im CSS berücksichtigt hat. Auf manchen Seiten ist das nicht der
Fall, die sehen gedruckt sch... aus. Und als PDF "gedruckt" dann halt auch.
Aber auch der umgekehrte Fall kann gelten: der Ersteller der Seite unterdrückt
per CSS einzelne Teile der Seite, die man aber gerne mitgespeichert hätte.
Auch dann sieht ein "gedrucktes" PDF u. U. anders aus, als man es speichern
möchte.

Gruß

Michael
Franklin Schiftan
2022-07-05 09:24:46 UTC
Permalink
Post by Michael Landenberger
Post by Franklin Schiftan
Post by Werner Tann
Vor langer Zeit habe ich interessante Webseiten "als Datei
abgespeichert", Endung htm, um sie dauerhaft und lokal zu behalten.
Seit einigen Jahren mache ich das nicht mehr, sondern kopiere sie in
Word und erstelle PDFs.
Wieso nach Word kopieren? Die kannst Du doch gleich direkt als PDF
"drucken".
Dann ist man aber darauf angewiesen, dass der Ersteller der Seite auch die
Druckfunktion im CSS berücksichtigt hat. Auf manchen Seiten ist das nicht der
Fall, die sehen gedruckt sch... aus. Und als PDF "gedruckt" dann halt auch.
Aber auch der umgekehrte Fall kann gelten: der Ersteller der Seite unterdrückt
per CSS einzelne Teile der Seite, die man aber gerne mitgespeichert hätte.
Auch dann sieht ein "gedrucktes" PDF u. U. anders aus, als man es speichern
möchte.
Hmm, dann hab ich das hier immer mit den "falschen" Seiten probiert ... ;-)
Post by Michael Landenberger
Michael
.... und tschüss

Franklin
Stefan Ram
2022-07-05 21:07:24 UTC
Permalink
Post by Franklin Schiftan
Hmm, dann hab ich das hier immer mit den "falschen" Seiten probiert ... ;-)
BTW:

Manchmal wird das HTML einer Webseite mit JavaScript generiert.

Wählt man dann "Speichern" wird aber nicht das aktuelle HTML
gespeichert, sondern nur der ursprüngliche HTML-Quelltext.

Man kann in diesem Fall mit einem kleinen JavaScript, wie

{this.document.getElementsByTagName("body")[0].textContent=this.document.getElementsByTagName("body")[0].outerHTML;undefined}

, den derzeitigen Quelltext im Browserfenster anzeigen lassen.
Von dort kann man ihn dann kopieren und als HTML-Datei abspeichern.

Bei neueren Browsern kann man solch ein JavaScript in die
Konsole kopieren. Bei älteren Browser hinter "javascript:"
in die Adreßzeile.
Arno Welzel
2022-07-04 11:37:12 UTC
Permalink
Post by Werner Tann
Vor langer Zeit habe ich interessante Webseiten "als Datei
abgespeichert", Endung htm, um sie dauerhaft und lokal zu behalten.
Seit einigen Jahren mache ich das nicht mehr, sondern kopiere sie in
Word und erstelle PDFs.
Jetzt habe ich so eine alte htm aufgerufen (weiß nicht, ob damals mit
"Webseite sowieso hat die Verbindung abgelehnt", und ich sehe nur ein
graues Fenster.
Äh, was? Ich dachte, lokal abspeichern heißt lokal abspeichern, und
allenfalls funktioniert der Aufruf von Links auf dieser Seite nicht
mehr?
Man muss unterscheiden zwischen "Website als HTML speichern" und
"Website vollständig speichern". Erstes speichert nur den HTML-Inhalt
1:1 lokal ab. Das bedeutet aber auch, dass extern nachgeladene Elemente
wie CSS, Bilder oder JavaScript nicht enthalten sind, sondern vom
ursprünglichen Serer nachgeladen werden müssen, wenn man die HTML-Datei
öffnet.
Post by Werner Tann
Was habe ich am "abspeichern als Datei" nicht verstanden?
Dass die HTML-Datei alleine nicht reicht. Bei Chrom muss man "Website,
vollständig" beim Speichern auswählen, bei Firefox nennt sich das
"Website, komplett". Dann hat man neben der HTML-Datei auch einen Ordner
mit den Elementen darin wie CS, Bilder etc..
--
Arno Welzel
https://arnowelzel.de
Werner Tann
2022-07-04 15:00:02 UTC
Permalink
Post by Arno Welzel
Man muss unterscheiden zwischen "Website als HTML speichern" und
"Website vollständig speichern". Erstes speichert nur den HTML-Inhalt
1:1 lokal ab. Das bedeutet aber auch, dass extern nachgeladene Elemente
wie CSS, Bilder oder JavaScript nicht enthalten sind, sondern vom
ursprünglichen Serer nachgeladen werden müssen, wenn man die HTML-Datei
öffnet.
Ja, das ergibt Sinn, wenn ich mir die Code-Wüste der htm-Datei ansehe.
Zig URLs der betreffenden Seite, und merkwürdigerweise überhaupt kein
Beitragstext. Offensichtlich wäre auch der nachgeladen worden? Wie
verrückt ist das?
Post by Arno Welzel
Post by Werner Tann
Was habe ich am "abspeichern als Datei" nicht verstanden?
Dass die HTML-Datei alleine nicht reicht. Bei Chrom muss man "Website,
vollständig" beim Speichern auswählen, bei Firefox nennt sich das
"Website, komplett". Dann hat man neben der HTML-Datei auch einen Ordner
mit den Elementen darin wie CS, Bilder etc..
Ja, das kenne ich natürlich. Die Speicherdatei mit dem extra Ordner
ist aber sehr umständlich und erhöht nicht gerade die Übersicht in dem
Verzeichnis, in das man die Webseite ablegt. Darum habe ich immer 2
andere Varianten bevorzugt, entweder "Webseite als html speichern",
das habe ich in diesem Problemfall gemacht, oder auch "Webseite in
einer einzigen Datei speichern", dann bekommt das File aber die Endung
mht. Und in diesem File wären die Bilder und alles enthalten gewesen.

https://www.chip.de/downloads/MHT-Datei-oeffnen_42310046.html

Aber das geht/ging AFAIR nur mit dem Internet Explorer, für andere
Browser braucht's wieder ein AddOn, um mht zu lesen.

Dass man mit der html gar nicht die ganze Seite bekommt, habe ich
damals verschlafen ... Ärgerlich. Na gut, so viele Dateien/Webseiten
sind es nicht.
Andreas Kohlbach
2022-07-04 18:28:49 UTC
Permalink
Post by Werner Tann
Vor langer Zeit habe ich interessante Webseiten "als Datei
abgespeichert", Endung htm, um sie dauerhaft und lokal zu behalten.
Seit einigen Jahren mache ich das nicht mehr, sondern kopiere sie in
Word und erstelle PDFs.
Jetzt habe ich so eine alte htm aufgerufen (weiß nicht, ob damals mit
"Webseite sowieso hat die Verbindung abgelehnt", und ich sehe nur ein
graues Fenster.
Seltsam. Wie aufgerufen?

Geht es über "Datei -> Öffnen?

Sonst vielleicht file:///pfad/zur/datei.htm ?
--
Andreas
Werner Tann
2022-07-04 20:15:30 UTC
Permalink
Post by Andreas Kohlbach
Seltsam. Wie aufgerufen?
Doppelklick. Dann geht Chrome auf.
Aber mit Edge dasselbe. Auch in Sigill und Dreamweaver sehe ich den
Text des Webseitenartikels nicht.
Post by Andreas Kohlbach
Geht es über "Datei -> Öffnen?
Sonst vielleicht file:///pfad/zur/datei.htm ?
Wie gesagt, ich kann's mit allem Möglichen öffnen, aber die einstens
angezeigten Bilder u. Texte sind nicht mehr da. Das kann nur daran
liegen, dass der Artikel jetzt kostenpflichtig ist und deswegen bei
mir lokal überhaupt nichts mehr angezeigt wird.
Andreas Kohlbach
2022-07-05 18:14:33 UTC
Permalink
Post by Werner Tann
Wie gesagt, ich kann's mit allem Möglichen öffnen, aber die einstens
angezeigten Bilder u. Texte sind nicht mehr da. Das kann nur daran
liegen, dass der Artikel jetzt kostenpflichtig ist und deswegen bei
mir lokal überhaupt nichts mehr angezeigt wird.
Wenn der Artikel lokal vorliegt und Text ist (also kein Skript, was
vielleicht Inhalt nachläd) kann das nicht sein.

Wenn es nicht zu persönlich ist; kannst Du mir den mal mailen?
--
Andreas
Marco Moock
2022-07-04 18:52:03 UTC
Permalink
Post by Werner Tann
"Webseite sowieso hat die Verbindung abgelehnt", und ich sehe nur ein
graues Fenster.
Waren da ggf. Skripte eingebunden, die Kram nachladen?
Werner Tann
2022-07-04 20:15:30 UTC
Permalink
Post by Marco Moock
Post by Werner Tann
"Webseite sowieso hat die Verbindung abgelehnt", und ich sehe nur ein
graues Fenster.
Waren da ggf. Skripte eingebunden, die Kram nachladen?
Ja, im Header ein elendlanges Skript ... Aber php-Seite war's keine,
denn die hätte man wohl gar nicht "als html" speichern können. Oder
speichern schon, aber dann hätte ich gleich gemerkt, dass ich nur Müll
gespeichert habe.
Axel Berger
2022-07-04 20:41:17 UTC
Permalink
Post by Werner Tann
Aber php-Seite war's keine,
denn die hätte man wohl gar nicht "als html" speichern können. Oder
speichern schon, aber dann hätte ich gleich gemerkt, dass ich nur Müll
gespeichert habe.
Falsch. Von PHP wirst Du nie etwas zu sehen bekommen. Das wird auf dem
Server gelesen und ausgeführt. Was der dann an Dich ausliefert ist das
damit gebaute HTML.
--
/¯\ No | Dipl.-Ing. F. Axel Berger Tel: +49/ 221/ 7771 8067
\ / HTML | Roald-Amundsen-Straße 2a Fax: +49/ 221/ 7771 8069
 X in | D-50829 Köln-Ossendorf http://berger-odenthal.de
/ \ Mail | -- No unannounced, large, binary attachments, please! --
Werner Tann
2022-07-05 07:36:34 UTC
Permalink
Post by Axel Berger
Post by Werner Tann
Aber php-Seite war's keine,
denn die hätte man wohl gar nicht "als html" speichern können. Oder
speichern schon, aber dann hätte ich gleich gemerkt, dass ich nur Müll
gespeichert habe.
Falsch. Von PHP wirst Du nie etwas zu sehen bekommen. Das wird auf dem
Server gelesen und ausgeführt. Was der dann an Dich ausliefert ist das
damit gebaute HTML.
Lies meinen Satz nochmal. Eine PHP-Seite als html abgespeichert (in
*eine* Datei, darüber reden wir hier) liefert Müll, zumindest
zerstörtes Layout.

Willkürliches Beispiel
https://www.praxisgemeinschaft-wien-mitte.at/kontakt.php
Speichere die Seite als "Webseite, nur html", schau's an, vergleiche
und wundere dich.

Heißt: Hätte das Ergebnis schon damals so ausgesehen, hätte ich gleich
gemerkt, so wird das nichts. In meinem Fall rede ich von gespeichertem
html-only, das damals richtig angezeigt wurde, heute nicht mehr.
Andreas Kohlbach
2022-07-05 18:32:52 UTC
Permalink
Post by Werner Tann
Post by Axel Berger
Post by Werner Tann
Aber php-Seite war's keine,
denn die hätte man wohl gar nicht "als html" speichern können. Oder
speichern schon, aber dann hätte ich gleich gemerkt, dass ich nur Müll
gespeichert habe.
Falsch. Von PHP wirst Du nie etwas zu sehen bekommen. Das wird auf dem
Server gelesen und ausgeführt. Was der dann an Dich ausliefert ist das
damit gebaute HTML.
Lies meinen Satz nochmal. Eine PHP-Seite als html abgespeichert (in
*eine* Datei, darüber reden wir hier) liefert Müll, zumindest
zerstörtes Layout.
Willkürliches Beispiel
https://www.praxisgemeinschaft-wien-mitte.at/kontakt.php
Speichere die Seite als "Webseite, nur html", schau's an, vergleiche
und wundere dich.
Hier (Linux in Chromium) speichert er die Datei bei Aufruf noch einmal.

Rufe ich sie im Textbrowser lynx auf (dem ich aber mal sagte, er solle
PHP als HTML behandeln) ist der Inhalt lesbar. Mag sein, dass einiges fehlt.

Auch CSS wird nicht dargestellt, falls der Inhalt von externer Quelle
kommt.

Aber grundsätzlich scheint die Seite hier brauchbar zu sein.
--
Andreas
Axel Berger
2022-07-05 20:24:21 UTC
Permalink
Post by Werner Tann
Speichere die Seite als "Webseite, nur html", schau's an, vergleiche
und wundere dich.
Muß ich nicht um zu wissen, daß das mit dem PHP nichts zu tun hat und
nichts zu tun haben kann.
--
/¯\ No | Dipl.-Ing. F. Axel Berger Tel: +49/ 221/ 7771 8067
\ / HTML | Roald-Amundsen-Straße 2a Fax: +49/ 221/ 7771 8069
 X in | D-50829 Köln-Ossendorf http://berger-odenthal.de
/ \ Mail | -- No unannounced, large, binary attachments, please! --
Michael Landenberger
2022-07-06 07:18:55 UTC
Permalink
Post by Werner Tann
Lies meinen Satz nochmal. Eine PHP-Seite als html abgespeichert (in
*eine* Datei, darüber reden wir hier) liefert Müll, zumindest
zerstörtes Layout.
Logisch, denn wenn man nur HTML speichert, fehlt noch das für das Layout
wichtige CSS und andere Dateien wie z. B. Javascript. Dabei ist es aber völlig
egal, ob das HTML direkt als Datei auf dem Server liegt oder erst durch ein
PHP-Skript erzeugt wird. Was beim Browser ankommt, ist in beiden Fällen HTML,
also auch dann, wenn der URL auf ein PHP-Skript verweist.
Post by Werner Tann
Heißt: Hätte das Ergebnis schon damals so ausgesehen, hätte ich gleich
gemerkt, so wird das nichts. In meinem Fall rede ich von gespeichertem
html-only, das damals richtig angezeigt wurde, heute nicht mehr.
Dann sind, wie an anderer Stelle bereits vermutet, Inhalte verlinkt, die
damals zugänglich waren und jetzt nicht mehr.

Gruß

Michael
Werner Tann
2022-07-06 09:47:16 UTC
Permalink
Post by Michael Landenberger
Dann sind, wie an anderer Stelle bereits vermutet, Inhalte verlinkt, die
damals zugänglich waren und jetzt nicht mehr.
Dann muss, und das hat eine gewisse Perversität, der Artikel*text"
verlinkt gewesen sein, so dass er (schon damals) nachgeladen wurde und
sich nicht im Sourcecode des gespeicherten html-Files befindet. Auch
PHP generiert am Server oftmals erst den Text, dieser ist aber lokal
natürlich im gespeicherten html enthalten.
Michael Landenberger
2022-07-06 10:12:56 UTC
Permalink
Post by Werner Tann
Post by Michael Landenberger
Dann sind, wie an anderer Stelle bereits vermutet, Inhalte verlinkt, die
damals zugänglich waren und jetzt nicht mehr.
Dann muss, und das hat eine gewisse Perversität, der Artikel*text"
verlinkt gewesen sein, so dass er (schon damals) nachgeladen wurde und
sich nicht im Sourcecode des gespeicherten html-Files befindet.
Das ist durchaus möglich, aber häufig gängige Praxis. Es könnte auch eine
JavaScript-Datei fehlen, die dafür zuständig war, auf Client-Seite den Inhalt
der Seite aufzubauen.
Post by Werner Tann
Auch PHP generiert am Server oftmals erst den Text, dieser ist aber lokal
natürlich im gespeicherten html enthalten.
Das habe ich ja geschrieben: PHP-Skripte liefern nicht sich selbst aus (ein
Browser könnte damit ja auch gar nichts anfangen), sondern werden vom Server
ausgeführt (der kann mit PHP etwas anfangen). Ausgeliefert wird dann das von
den Skripten generierte HTML. Der Browser sieht dann nur HTML und behandelt
das natürlich auch genauso, als käme es direkt aus einer auf dem Server
liegenden HTML-Datei.

Gruß

Michael

Lesen Sie weiter auf narkive:
Loading...