Mit der ersten Tabelle bin ich fertig, also hier ein paar Beispiele:
476312 de jmds. Stelle einnehmen
476313 de jmds. treuer (m) Gehilfe
476314 de jmds. übles (n) Spiel
476315 de jmds. verstorbene ältere (f) Schwester
476316 de jmds. Vertrauen haben
952766 en pentlandite; iron nickel pyrite; nicopyrite; folgerite
952767 en pentose
952768 en pentstemon
952769 en pentyl chloroformate
952770 en penult (penultimate syllable of a word)
1428971 ja マイナスせいちょう
1428972 ja マイナスのねじまわし
1428973 ja マイナスのねじ回し
1428974 ja マイナスめん
1428975 ja マイナスイオン
1619636 nl (4) drie genieën
1619637 nl (4) drie jaar oud
1619638 nl (4) drie op het zuiden georiënteerde trappen van het keizerlijk paleis
1619639 nl (4) drillen
1872619 ru ГДР
1872620 ru гёза (японское блюдо напоминающее пельмени)
1872621 ru гейша
1872622 ru гектар
1872623 ru гекто-
1872624 ru гелий (He)
1904731 tr tuğla
1904732 tr tunç
1904733 tr Türkiye
1904734 tr tutku
Manche Datensätze sehen so aus als könnte man das noch verbessern, aber dann könnten jedesmal andere Datensätze mitbetroffen sein, bei denen das eine Verschlimmbesserung wäre.
Unsinnigerweise hatte zum Beispiel mal irgendjemand einige niederländische Übersetzungen nochmal zusätzlich zu den in der Datei verwendeten Delimitern extra durchnummeriert. Das führt zu komischen führenden (4) in den Einträgen. Aber Ziffern in runden Klammern ist ein Muster, das auch in den Namen von Chemikalien auftaucht. Also kann ich nicht das eine bearbeiten, ohne auch das andere zu treffen.
Die Einträge dieser ersten Tabelle werden dann in der zweiten Tabelle weiterverwendet, in der sich bis jetzt erst Kombinationen aus Deutsch und Türkisch (die kleinste Tabelle, muß darum zum testen herhalten) befinden:
trans 281285 1903878
trans 281285 1904598
trans 281304 1903955
trans 281940 1904511
trans 281951 1904068
trans 281951 1904790
trans 282542 1904628
trans 282598 1904021
trans 283162 1904036
trans 283179 1904373
Linke Spalte: Hinweis, daß es sich bei der Kombination um eine Übersetzung handelt.
Mittlere Spalte: ID eines deutschen Wortes.
Rechte Spalte: ID eines türkischen Wortes.
Möglicherweise sollte jede Kombination noch eine eigene ID bekommen. Natürlich erst hinterher, damit das INSERT IGNORE funktioniert. Ich wüßte noch garnicht, wofür die eigene ID einer Kombination gebraucht werden könnte.
Eine wünschenswerte Funktion wäre natürlich eine, die es ermöglicht, einen AUTO INCREMENT -Wert beim INSERT IGNORE zu ignorieren. Dann ließe sich die Option auch später zur Laufzeit des späteren Wörterbuches verwenden.
Die Tabelle zu den Zusatzangaben enthält noch keine Einträge. Zu solchen hätte ich aber noch Erklärungen aus der Datei für Japanisch:
<!ENTITY Buddh "Buddhist term">
<!ENTITY chem "chemistry term">
<!ENTITY chn "children's language">
<!ENTITY col "colloquialism">
<!ENTITY comp "computer terminology">
<!ENTITY conj "conjunction">
Das ist nur ein kleiner Ausschnitt. Ich weiß noch nicht, was ich damit anfange. Einerseits wäre es ja sinnvoll, den teils doch recht kryptischen Abkürzungen eine Erklärung mitzugeben. Andererseits sind sie alle für Japanisch und auf Englisch. Und wo würde ich sie hinpacken? Vielleicht sollte ich sie erstmal aus ihren XML-tags befreien, indem sie in einer weiteren Tabelle landen, und dann die Abkürzungen in der anderen Tabelle (also diejenige, die jetzt noch keine Einträge enthält) mit den Erklärungen ersetzen. Das dürfte auf jeden Fall besser sein als nur eine kryptische Abkürzung.
Ranma