Date: 2011-03-25 08:01 pm (UTC)
Да, именно в мсворде они и пишут. Причем, в ворованном. ;-)

Кстати, насчет OCR это в том FAQ зря. Да, (не говоря о разных фиксированных кодировках) бывают "оптимизированные" PDF, где кодировка специфична для документа. Тем не менее, зная для каждого символа комбинацию шрифт/код должно быть несложно восстановить кодировку для английского и русского. Например, частотным анализом (для построения начального приближения) и последующим сравнением со словарем (с уточняющими перестановками). Это отдельная задача. Если ее решить (например, в виде патча к тому-же pdftotext), то человечество скорее сказало бы за это спасибо. Задача не такая уж и тривиальная, если искать универсальное решение (для языков, использующих алфавит).

К.Л.М.
This account has disabled anonymous posting.
If you don't have an account you can create one now.
HTML doesn't work in the subject.
More info about formatting

Profile

dr_klm: (Default)
Dr. K. L. Metlov

March 2017

S M T W T F S
   1234
567891011
1213141516 1718
19202122232425
262728293031 

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 22nd, 2025 08:13 pm
Powered by Dreamwidth Studios