Date: 2011-03-25 05:24 pm (UTC)
Не все, что можно сделать делать нужно. Тем более, за просто так...

Прелесть CRF в самообучаемости, которая ослабит зависимость от языка (она войдет в тренировочный набор данных, который прийдется дополнить кириллическими примерами), изменить прийдется некоторое ограниченное количество фиксированных токенов (типа "под ред.", а также названий известных журналов и издательств), пред-обработку (которая бы искала раздел "Литература" вместо "References") и пост-обработку (для регуляризации имен типа "Иванов-Петров И.П." в "И. П. Иванов-Петров" и страниц "с. 1234-6" в "1234-1236"). Ничего принципиально сложного (т.е. принципиально сложнее, чем то, что уже сделано для английского) в этом я не вижу, но это серьезная и кропотливая работа (если делать систематически).

Подозреваю, что сложнее будет универсальным образом вытащить кириллический текст из формата PDF. ;-)

К.Л.М.
This account has disabled anonymous posting.
If you don't have an account you can create one now.
HTML doesn't work in the subject.
More info about formatting

Profile

dr_klm: (Default)
Dr. K. L. Metlov

March 2017

S M T W T F S
   1234
567891011
1213141516 1718
19202122232425
262728293031 

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 23rd, 2025 09:19 am
Powered by Dreamwidth Studios