Zitat(skype66 @ 06 Jul 2007, 15:44)
Es geht mir im Grunde nur um die Grammatik, die Syntax, wie
der genaue Verlauf bei der Transformation aussieht.
Ich will ein geeignetes Format zur Transofrmation in das ODF, nur um den internen Verlauf bzw. die Grammatik, das Konzeot, die dahinter steckt näher zu betrachten.
Analyse der Grammatik vom Quell-Format und die des Zielformats (in diesem Zusammenhang das ODF) anhand eines Beispiels

Ich interpretiere das so: Du willst einen Konverter von XXX nach ODF bauen (zumindest theoretisch durchdenken)?
Zitat(skype66 @ 06 Jul 2007, 15:44)
Welches FOrmat wäre geeignet?
Welches Format würdet ihr bevorzugen?
.pdf, .fm, .doc, .tex, .htm, etc
die ersten drei sind proprietäre Formate, die ich aus diesem Grunde nicht bevorzugen würde
was meint ihr mit html oder habt ihr einen besseren Vorschlag??

.fm sagt mir nix.
An .doc haben sich schon viele die Zähne ausgebissen.
HTML fände ich ziemlich unspannend, da OpenOffice das ja sowieso schon ganz gut macht.
Bleiben noch TeX und PDF. Beide haben ihre Schwierigkeiten:
TeX ist eine Programmiersprache, erfordert also einen Interpreter. Nur wenige Dokumente, die von vornherein darauf zugeschnitten sind, anderweitig konvertiert zu werden, halten sich an die strengen Dateiformate von z.B. LaTeX und TeXinfo. Das hat zu unterschiedlichsten Ansätzen für die Konvertierung von Dateien von LaTeX nach HTML geführt. Der meiner Meinung nach vielversprechendste Ansatz ist tex4ht, das auch sxw-Dateien erzeugen kann. ODT ist geplant (wenn's nicht schon fertig ist). Ist kompliziert zu benutzen, funktioniert dafür aber umso besser.
PDF ist in einigen Dialekten anerkannter Standard und eine relativ neue Version wurde komplett als Standard eingereicht. Außerdem ist es IMHO öffentlich dokumentiert. Ich fände es spannend PDF->odt und PDF->SVG usw konvertieren zu können. Aber ich befürchte, dass man dafür gute Schätz-Algorithmen braucht, um das Bild in ein brauchbares Textformat umzuwandeln. PDF scheint mir -- verkürzt ausgedrückt -- eine Art druckerfreundliche Vektorgrafik mit Hypertext-Eingenschaften und Unmengen an Erweiterungen zu sein, also ein Dokument, das fast nur aus Form besteht. ODF kennt da mit Stilen usw. wesentlich mehr Inhalt. Das genaue Maß von beiden Formaten kenne ich jedoch nicht.