Kopírování z PDF na Mac OS X a čeština

Nevím jestli to znáte také, ale při kopírování textu z PDF na OS X je  při vložení textu, například do Wordu, text nějaký divný. Třeba místo „ž“ je v textu evidentně písmeno „z“ a za ním UTF-8 znak pro přidaný háček. Podstata jevu je popsána zde.

Bohužel při tisku není umístění háčku nebo čárky vždy správné. Dost dlouho jsem znaky ručně opravoval, ale teď (ve vlaku s trochou času) jsem se rozhodl s tím něco udělat a na budoucí kopírování se připravit.

Jako nástroj pro opravu jsem nalezl v OS X přítomný prográmek iconv a rozhodl se jej využít pro tvorbu textového filtru do TextWrangler editoru, který používám (a který je zadarmo).

Stačí vytvořit ve složce ~/Library/Application Support/TextWrangler/Text Filters/ soubor UTF8Normalize.sh a do něj umístit text:

#!/bin/sh
iconv -f UTF-8-MAC -t UTF-8

Pak už jen zbývá souboru nastavit práva pro spouštění pomocí terminálu a příkazu:

chmod u+x UTF8Normalize.sh

spuštěného ve výše uvedeném adresáři a tím získat novou položku v menu editoru Text -> Apply filter -> UTF8Normalize . Filtr se aplikuje na text v okně editoru, který sice zdánlivě zůstane stejný, ale nyní už v UTF-8 NFC a výborně kopírovatelný třeba do Wordu.

Případně je možné příkaz užívat i k převodu textových souborů:

iconv -f UTF-8-MAC -t UTF-8 vstupniSoubor.txt >vystupniSoubor.txt

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *