Да, сейчас смотрю добавить кириллицу по проще будет :) Когда я смотрел первый раз это был кластер полностью написанный на перле, в пределе на каждую букву алфавита запускалась отдельная машина.
Теперь я смотрю всё локализовано в ParsCit. К сожалению много heuristic regularization забито в код именно для английского, но это вполне решаемо.
Еще не понятен вопрос с Conditional Random Fields , если там нормализация языка как этап обработки, то русского там не предусмотрено скорее всего из коробки :(
no subject
Теперь я смотрю всё локализовано в ParsCit. К сожалению много heuristic regularization забито в код именно для английского, но это вполне решаемо.
Еще не понятен вопрос с Conditional Random Fields , если там нормализация языка как этап обработки, то русского там не предусмотрено скорее всего из коробки :(