dr_klm: (Default)
[personal profile] dr_klm
Карта физики. Объяснение.

Обратите внимание на значение цвета и ужаснитесь.

Date: 2011-03-25 02:56 pm (UTC)
From: [identity profile] p2004r.blogspot.com (from livejournal.com)
Да, сейчас смотрю добавить кириллицу по проще будет :) Когда я смотрел первый раз это был кластер полностью написанный на перле, в пределе на каждую букву алфавита запускалась отдельная машина.

Теперь я смотрю всё локализовано в ParsCit. К сожалению много heuristic regularization забито в код именно для английского, но это вполне решаемо.

Еще не понятен вопрос с Conditional Random Fields , если там нормализация языка как этап обработки, то русского там не предусмотрено скорее всего из коробки :(

Date: 2011-03-25 05:24 pm (UTC)
From: [identity profile] dr-klm.livejournal.com
Не все, что можно сделать делать нужно. Тем более, за просто так...

Прелесть CRF в самообучаемости, которая ослабит зависимость от языка (она войдет в тренировочный набор данных, который прийдется дополнить кириллическими примерами), изменить прийдется некоторое ограниченное количество фиксированных токенов (типа "под ред.", а также названий известных журналов и издательств), пред-обработку (которая бы искала раздел "Литература" вместо "References") и пост-обработку (для регуляризации имен типа "Иванов-Петров И.П." в "И. П. Иванов-Петров" и страниц "с. 1234-6" в "1234-1236"). Ничего принципиально сложного (т.е. принципиально сложнее, чем то, что уже сделано для английского) в этом я не вижу, но это серьезная и кропотливая работа (если делать систематически).

Подозреваю, что сложнее будет универсальным образом вытащить кириллический текст из формата PDF. ;-)

К.Л.М.

Date: 2011-03-25 06:00 pm (UTC)
From: [identity profile] p2004r.blogspot.com (from livejournal.com)
да, на http://pdfbox.apache.org/userguide/faq.html#gibberish_text

This is because the characters in a PDF document can use a custom encoding instead of unicode or ASCII. When you see gibberish text then it probably means that a meaningless internal encoding is being used. The only way to access the text is to use OCR. This may be a future enhancement.


Hо то мы ведь знаем, что "настоящие кириллические" ученые почему то вс[её] пишут в мсворде (шутка :)

Date: 2011-03-25 08:01 pm (UTC)
From: [identity profile] dr-klm.livejournal.com
Да, именно в мсворде они и пишут. Причем, в ворованном. ;-)

Кстати, насчет OCR это в том FAQ зря. Да, (не говоря о разных фиксированных кодировках) бывают "оптимизированные" PDF, где кодировка специфична для документа. Тем не менее, зная для каждого символа комбинацию шрифт/код должно быть несложно восстановить кодировку для английского и русского. Например, частотным анализом (для построения начального приближения) и последующим сравнением со словарем (с уточняющими перестановками). Это отдельная задача. Если ее решить (например, в виде патча к тому-же pdftotext), то человечество скорее сказало бы за это спасибо. Задача не такая уж и тривиальная, если искать универсальное решение (для языков, использующих алфавит).

К.Л.М.

Profile

dr_klm: (Default)
Dr. K. L. Metlov

March 2017

S M T W T F S
   1234
567891011
1213141516 1718
19202122232425
262728293031 

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 22nd, 2025 08:09 pm
Powered by Dreamwidth Studios