CIA world factbook für DICT aufbereiten
Hi Leute,
ich habe mir zuletzt 2007 das CIA World Fact Book für dict aufbereitet.
Damals habe ich mir folgendes dazu notiert:
- Zuallererst mal die Daten von der CIA herunterladen:
https://www.cia.gov/library/publications/the-world-factbook/index.html
(single-.zip-file for high-bandwidth users).
- Entpacken
- Die Dateien aus dem /print und dem /appendix Unterverzeichnis in ein
eigenes temporäres Verzeichnis kopieren, ebenso copyright.html und
countrylisting.html
- In diesem Verzeichnis dann for i in *.html; do html2text -nobs -width 72 $i > $i.txt; done
durchführen.
- die entstandenen .html.txt umbenennen zu .txt
- die appendix-*.txt files in ein Unterverzeichnis /appendices
verschieben.
- die anderen **.txt files in ein Unterverzeichnis /countries
verschieben.
- im aktuellen Verzeichnis müssen noch countrylisting.txt und
copyright.txt vorhanden sein.
- jetzt im aktuellen Verzeichnis python convert.py > world07.txt
durchführen.
- dann
dictfmt --columns 80 -f -u http://www.cia.gov/cia/publications/factbook/countrylisting.html -s "CIA World Factbook 2007" -f world07 < world07.txt
durchführen.
- dictzip world07.dict durchführen.
- Jetzt die world07.dict.dz und die world07.index nach /usr/share/dictd
kopieren.
- world07 in die Datei /etc/dictd/dictd.order anhaengen,
dann dictdconfig --write ausfuehren und zu guter Letzt kontrollieren,
ob die neue Datenbank in /var/lib/dictd/db.list an richtiger Stelle
auftaucht.
- dictd restarten, fertig.
Mein Problem ist, daß sich offensichtlich die Struktur geändert hat, es
gibt kein countrylisting.html und kein copyright.html. Hat jemand eine
Idee, wie das aktuell korrekt funktioniert?
ciao, Dirk
Reply to: