"Quelltext anzeigen" -äquivalent für Word-Dokumente?

11

Manchmal scheinen Word-Dokumente mehr oder weniger kaputt zu sein, normalerweise wenn das Layout ziemlich komplex geworden ist und das Dokument mehrmals den Besitzer und / oder die Version gewechselt hat. Symptome können sein, dass beim Drücken der Tasten Backspaceoder Enteran einer bestimmten Stelle des Dokuments, an der es wirklich funktionieren sollte, nichts passiert oder dass die Formatierung mehr oder weniger zufällig angewendet wird und sich selbst zurücksetzt. Ich denke, wir waren alle dort.

Oft kann es sehr schwierig sein, genau zu wissen, was falsch ist, da das, was in Word unter der Haube passiert, ziemlich undurchsichtig ist. Sie könnten ein Dokument haben, das leer aussieht, aber in Wirklichkeit kann der zugrunde liegende Zustand in Bezug auf Formatierung usw. ziemlich komplex sein.

In diesen Fällen wäre es nützlich, einen Blick auf den Quellcode hinter dem zu werfen, was auf der Seite angezeigt wird. B. wie Sie in einem Browser View Source ausführen und im Idealfall Änderungen direkt im Quellcode vornehmen können, wie Sie es bei Verwendung von Latex tun würden. Gibt es einen Befehl oder ein Dienstprogramm vom Typ "Quelltext anzeigen" für Microsoft Word-Dokumente?

Ich vermute, dass es keinen solchen Befehl gibt, sonst hätte ich davon gehört. Wenn dies der Fall ist, hat jemand einen guten Ansatz, um lästige "versteckte Formatierungen" in einem Word-Dokument in den Griff zu bekommen ?

Ich vermute, dass es einige Unterschiede in den Formaten .doc und .docx gibt. Ich interessiere mich für beide Fälle.

Gottschmied
quelle

Antworten:

11

Wenn Sie hauptsächlich an der Formatierung interessiert sind, bietet Word eine gute Möglichkeit, alle Arten der Formatierung zu überprüfen, die auf Text und Objekte angewendet werden, die als Formatierung anzeigen bezeichnet werden . In Word 2007 und 2010 lautet die Verknüpfung für dieses Bedienfeld Shift+ F1.

Geben Sie hier die Bildbeschreibung ein

Wenn Sie das Dokumentformat noch besser verstehen möchten, können Sie sich das XML für DOCX-Dateien ansehen.

  1. Suchen Sie Ihr DOCX-Dokument auf der Festplatte.
  2. Ändern Sie die Erweiterung des Dokuments von .docx in .zip.
  3. Doppelklicken Sie auf die Datei und öffnen Sie sie im Standardarchivmanager.
  4. Navigieren Sie im Zip-Programm zum Ordner "Word" und öffnen Sie Document.xml . Dies ist der Code, der den Großteil des Dokumentinhalts ausmacht, obwohl die anderen Dateien auch auf andere Weise verwendet werden, z. B. für Stile oder Schriftinformationen.

Sie benötigen auf jeden Fall einen anständigen XML-Editor, um die Daten anzuzeigen, und selbst dann ist er ziemlich komplex und für ein großes Dokument sehr, sehr lang.

Wenn es um DOC geht, gibt es keine einfache Möglichkeit, "die Quelle anzuzeigen", da es sich um eine Binärdatei handelt, die aus separaten Streams besteht, und daher gibt es keine einfache Möglichkeit, den Inhalt anzuzeigen.

Adam
quelle
Das ist ganz praktisch, das wusste ich nicht. Schade, dass Sie für .doc-Dateien nicht dasselbe tun können, da dies von meiner Firma immer noch verwendet wird. Danke für die Erklärung!
Godsmith
1
@Godsmith Sie können den DOC mit einer neueren Version von Word als DOCX speichern und dann zu DOC zurückkehren, nachdem Sie alle Änderungen vorgenommen haben. Bei diesem Vorgang tritt ein Formatverlust auf. Seien Sie also vorsichtig, aber Sie können möglicherweise Änderungen oder Probleme in Ihren DOC-Typen vornehmen, indem Sie dies in DOCX tun.
ThisClark
Sie können alle Dateien auch direkt als HTML in MS Word speichern. Alternativ können Sie als RTF speichern und die RTF-Datei als Text
öffnen
3

Ich denke, das DOC-Format ist ziemlich schwierig, daher kann ich Ihnen hier nicht helfen. .Docx ist jedoch eine Zip-Datei, in der alle Details in XML-Dateien gespeichert sind. Benennen Sie die Datei daher in .zip um und sehen Sie sich die Quelle an!

Peter Albert
quelle
0

Wenn es um ein Binärformat wie * .doc geht, sind die Dinge schwieriger. Sie können den mso-Dumper von LibreOffice verwenden . Klonen Sie einfach die Lösung auf Ihren lokalen Computer und führen Sie sie aus

python doc-dump.py \path\to\file.doc >output.xml

Jetzt werden alle Elemente in der Binärdatei in genau dem im Word (.doc) Binary File Format beschriebenen Format in XML konvertiert

Es gibt auch WordFileDump, das einfacher, aber nicht so leistungsfähig wie mso-dumper ist

Leider dienen diese nur zur Analyse der Struktur und es gibt kein Tool, um die XML-Ausgabe wieder in eine * .doc-Datei zusammenzusetzen. Wenn Sie also die Hauptursache gefunden haben, müssen Sie sie mit Word bearbeiten. Daher ist es einfacher, in * .docx zu konvertieren, die * .docx-Datei zu untersuchen und bei Bedarf wieder in * .doc zu konvertieren

Sie können die Datei auch als RTF speichern, bei der es sich um eine "lesbare" Textdatei anstelle von Office-XML handelt. Alternativ können Sie die Word-Datei auch als HTML speichern

phuclv
quelle