Další Předchozí Obsah

10. Konverze znakových sad

Pro konverzi textových souborů se používá GNU program recode. Mezi českými a slovenskými uživateli je ovšem mnohem oblíbenější program cstocs, který byl zpočátku k dispozici jako samostatný balíček, později byl začleněn do cs-tools. Jde o skripty v jazyce perl a awk schopné konvertovat textové soubory buď pomocí převodu one-to-one nebo one-to-many. Při převodu one-to-many se například konvertuje znak Copyright (C v kroužku) do ASCII jako (c), německé ostré s se nahrazuje ss apod.. Aktuální verze cstocs (pro Perl 5) je součástí nové distribuce Cstools, kterou je možné nalézt na libovolném zrcadle CPANU na http://www.perl.com/CPAN/authors/id/JANPAZ/.

Starší verze, cstocs-3.0, která je též součástí cs-tools-0.19, pracuje i s Perlem 4 a obsahuje též skripty pro awk. Je k dispozici na ftp://ftp.muni.cz/pub/localization/linux/obsolete/cs-tools/. V této verzi je chyba. V souboru 1250.enc je třeba smazat poslední prázdný řádek. Pokud má program sloužit pro převod textů v němčině, bude navíc vhodné změnit v souborech kam.enc a vga.enc popis znaku beta na ssharp, aby byl považován za německé ostré s, které bude při převodu one-to-many nahrazeno dvěma znaky s, jak je zvykem v němčině, případně v souboru accent definovat náhradu [AOUaou]diaeresis dvojicí [AOUaou]e.

Pokud nemůžete použít ani perl ani awk, je možné použít program sed a jeden ze skriptů z adresáře ftp://ftp.fi.muni.cz/pub/localization/charsets/sed/, které se používají takto:


sed -f pclat2.isolat2 soubor > vystup


Další Předchozí Obsah