dr_klm: (Default)
Dr. K. L. Metlov ([personal profile] dr_klm) wrote2011-03-21 02:50 am

Карта науки

Карта физики. Объяснение.

Обратите внимание на значение цвета и ужаснитесь.

[identity profile] p2004r.blogspot.com (from livejournal.com) 2011-03-25 06:00 pm (UTC)(link)
да, на http://pdfbox.apache.org/userguide/faq.html#gibberish_text

This is because the characters in a PDF document can use a custom encoding instead of unicode or ASCII. When you see gibberish text then it probably means that a meaningless internal encoding is being used. The only way to access the text is to use OCR. This may be a future enhancement.


Hо то мы ведь знаем, что "настоящие кириллические" ученые почему то вс[её] пишут в мсворде (шутка :)

[identity profile] dr-klm.livejournal.com 2011-03-25 08:01 pm (UTC)(link)
Да, именно в мсворде они и пишут. Причем, в ворованном. ;-)

Кстати, насчет OCR это в том FAQ зря. Да, (не говоря о разных фиксированных кодировках) бывают "оптимизированные" PDF, где кодировка специфична для документа. Тем не менее, зная для каждого символа комбинацию шрифт/код должно быть несложно восстановить кодировку для английского и русского. Например, частотным анализом (для построения начального приближения) и последующим сравнением со словарем (с уточняющими перестановками). Это отдельная задача. Если ее решить (например, в виде патча к тому-же pdftotext), то человечество скорее сказало бы за это спасибо. Задача не такая уж и тривиальная, если искать универсальное решение (для языков, использующих алфавит).

К.Л.М.