Да, именно в мсворде они и пишут. Причем, в ворованном. ;-)
Кстати, насчет OCR это в том FAQ зря. Да, (не говоря о разных фиксированных кодировках) бывают "оптимизированные" PDF, где кодировка специфична для документа. Тем не менее, зная для каждого символа комбинацию шрифт/код должно быть несложно восстановить кодировку для английского и русского. Например, частотным анализом (для построения начального приближения) и последующим сравнением со словарем (с уточняющими перестановками). Это отдельная задача. Если ее решить (например, в виде патча к тому-же pdftotext), то человечество скорее сказало бы за это спасибо. Задача не такая уж и тривиальная, если искать универсальное решение (для языков, использующих алфавит).
no subject
Кстати, насчет OCR это в том FAQ зря. Да, (не говоря о разных фиксированных кодировках) бывают "оптимизированные" PDF, где кодировка специфична для документа. Тем не менее, зная для каждого символа комбинацию шрифт/код должно быть несложно восстановить кодировку для английского и русского. Например, частотным анализом (для построения начального приближения) и последующим сравнением со словарем (с уточняющими перестановками). Это отдельная задача. Если ее решить (например, в виде патча к тому-же pdftotext), то человечество скорее сказало бы за это спасибо. Задача не такая уж и тривиальная, если искать универсальное решение (для языков, использующих алфавит).
К.Л.М.