dr_klm: (Default)
Dr. K. L. Metlov ([personal profile] dr_klm) wrote2011-03-21 02:50 am

Карта науки

Карта физики. Объяснение.

Обратите внимание на значение цвета и ужаснитесь.

[identity profile] p2004r.blogspot.com (from livejournal.com) 2011-03-21 08:23 am (UTC)(link)
Ха, не цитируют :) хорошо что не тырят нетленку, а то были случаи.

Забавно наверное смотрелась бы с точки зрения англосаксов карта математики :) французы опять в пролете :)

Не сможет человек, которого в школу провожало радиоточка словами "скаутской зорьки" --- "Ваня уже освоил диференциальное исчисление, пока Джони спал" адекватно воспринимать "типа конкурентов".

[identity profile] dr-klm.livejournal.com 2011-03-21 06:06 pm (UTC)(link)
Да, "не тырят". Тырить нечего. ;-)

Можно, конечно, сказать, что они просто не доросли до наших результатов. Не созрели ищще... ;-)

Но как инсайдер инсайдеру ;-) могу Вам сказать, что дело обстоит имеенно так, как нарисовано. В построении графика учавствуют только отборные журналы из базы Thomson Reuters (по ней так-же считается impact factor и immediacy index). Если включить ещё вестники всяких там Университетов, картина получится _гораздо_ хуже.

К.Л.М.

[identity profile] p2004r.blogspot.com (from livejournal.com) 2011-03-21 08:31 pm (UTC)(link)
1) Любой статистический инструмент имеет границы своего применения. Попробуйте посмотреть как много цитат у англосаксонских математиков на французов (и наоборот :). Попробуйте обосновать в каком загоне французская математика :)

Натягивать национальный по своей сути индекс на весь глобус очень смелое действие. В духе впрочем нации первопроходцев. :)

2) Наука это наука, а ремесло это ремесло. Если тебе надо зарабатывать на хлеб, то к научной истине этот процесс имеет совершенно перпендикулярное отношение. Наукой может заниматься только полностью не думающий о материальном человек. Не думать о материальном он может по разным причинам.

То что происходит вокруг всех этих "хуz-факторов" здоровой ситуацией не назовешь. Да что там факторы, изобретают просто слово-лозунг под которое "дают кусок хлеба". Я все жду кокой нибудь "нанофизиологии", "наноанатомии", на полном серьезе --- "молекулярная" то появилась в свое время :)


3) Единственный смысл ссылок я вижу только в виде существования такого поисковика как citeseer. Да и то пожалуй в старой первоначальной версии, то что сейчас какими то людьми с инициативой переписано с нуля, мне не нравится.

А ведь когда то по одной статье можно было построить весь граф цитирования ... На что ссылается автор, кто на него... :( Целый куст статей доставался просто и безболезненно... мда улучшили индейцы. Какой то очень упрощенный геморрой получился.

[identity profile] dr-klm.livejournal.com 2011-03-22 02:03 pm (UTC)(link)
Конечно, есть множество моментов, которые эта статистика не отражает или отражает с систематической погрешностью. Но это не означает, что ее нужно игнорировать.

Мне, например, эти данные говорят одно. У нас научились публиковать статьи в хороших западных журналах (не смотря на то, что они, как вы говорите, "национальные" и издаются на английском языке), научились преодолевать для этого некую минимальную планку (которая гарантирует некий уровень публичности и, соответственно, цитируемости). Но, поскольку публикация и есть цель работы, ничего большего за этим и не стоит. Напечатали, формальные критерии выполнили, и всё, справились. Потому, в среднем, по цитированию работы находятся в конце.

Там, где наука живая -- печатная работа не цель, а лишь тень (проекция) достигнутых успехов, суть которых в другом.

Вот это и отражает данная статистика, хотя многого другого она не отражает.

К.Л.М.

p.s. У меня в 2008-м был не очень "хлебный" год, только одна статья и не самая лучшая. Хорошая, но в top 10% она не попала, я считаю, заслуженно. Потому Донецка на этой карте и нет. ;-)

[identity profile] p2004r.blogspot.com (from livejournal.com) 2011-03-23 07:59 am (UTC)(link)
Нужен индекс который принципиально способен разбирать библиографии на кириллице. Причем хватило бы движка того же старого citeseer. Он начинал как обычный паук (тягая все до чего мог дотянуться, и что имело подобие библиографии), думаю что "хлеб" он себе бы нашел в теперешнем интернете более чем достаточно. Минимально могло бы понадобится вбить десяток обзорных статей "для затравки". А уж если туда запустить "братские могилы" 70-80х! :)

Все остальные плюшки, в том числе _реальные_ импакт факторы журналов нашего "национального :) домена", подтянутся следом. Заодно народ приучится цитировать друг друга. :)

[identity profile] dr-klm.livejournal.com 2011-03-23 04:50 pm (UTC)(link)
Сегрегация ? ЖЖ только для русских ? Резервации для индейцев... Национальный индекс...

Апартеид -- это тупик ! Никакого кириллического сайта на базе движка citeseer не нужно.

Рано или поздно citeseer будет понимать библиографии на русском (если еще не понимает), какой-нибудь студент это обязательно сделает. Это просто.

"Вестники разных Университетов" не индексируются не потому, что роботы плохие, а потому, в первую очередь, что их нет в интернете (для многих из них XXI век еще не начался). Если их выложат, их тут-же все поисковые системы автоматически проиндексируют. Не вопрос.

Только я не уверен -- нужно ли их выкладывать... Вы уверены, что человечество многое теряет от того, что их нет ? Вы читали эти "научные журналы" ?

К.Л.М.

[identity profile] p2004r.blogspot.com (from livejournal.com) 2011-03-23 05:17 pm (UTC)(link)
По совершенно странному совпадению ни один из индексов цитирования не индексирует кириллицу и не собирается.

Про сегрегацию просто смешно, я думаю с трудом можно найти статью на русском в которой отсутствуют ссылки на зарубежные публикации. Значительно труднее будет найти обратный пример? Особенность citeseer в том, что даже не имея текста цитируемой работы (например копирайт не позволяет), виден контекст цитирования агрегированный из всего индекса. Так что никто англосаксов не собирается обижать :) "Сегрегацию", "апартеид" оне сами себе успешно устроили, без посторонней помощи :)

Не понимал, не понимает citeseer библиографии на русском, и не собирается понимать... Проблемы афроамериканцев знаете ли шерифа не волнуют. (да и citeseer того что был уже нет, наверное хватило пару писем от лаеров продолжателей дела Ю. Гарфилда, им же тоже кушать надо :)

Ну вестники... я же написал уже что именно имею в виду. Лично меня интересует что писали в 60-80е. То что этого нет в индексированном виде является причиной того, что мы наблюдаем в сегодняшних вестниках.

[identity profile] dr-klm.livejournal.com 2011-03-23 05:50 pm (UTC)(link)
Во-первых статей на русском, без ссылок на иностранные публикации валом (причем, чем дремучее "вестник", тем больше). И наоборот, лучшие из русскоязычных журналов переводятся (причем, как правило, "за счет принимающей стороны") и ссылки на них даются латиницей.

Чтобы не ходить далеко за примерами, я, в своих статьях, которые преимущественно латиницей и в иностранных журналах, регулярно ссылаюсь на статьи (и книги), опубликованные в СССР.

С еще более глобальных позиций, ничего из ряда вон выходящего с советскими журналами не происходит. Это только студенты думают, что публикация научной статьи -- путевка в вечность. На самом деле, наука не существует в отрыве от политики и позволить себе передовую науку может себе лишь успешное государство, империя. Потому, языком науки были: греческий, латынь, французский, немецкий... Локально в СССР был русский, сейчас, глобально, английский. Потом будет, наверное, китайский. Никакой трагедии для науки при этом не происходит. Наоборот, в процессе смены эпохи происходит очищение от мусора, очевидное придумывается заново, а на настоящие, фундаментальные вещи, народ ссылается назад, свозь несколько научных эпох. И ничего, что по гречески сейчас не все образованные люди понимают, как это было когда-то.

К.Л.М.

[identity profile] p2004r.blogspot.com (from livejournal.com) 2011-03-23 06:47 pm (UTC)(link)
"... но чем, скажи, измеришь ты глубину Восточного океана?" (С)

Если заострить --- как быть с такой наукой как русская филология? Её тоже по английски публиковать? Конечно можно, но всяким хиршам это не поможет, читать некому особо даже по русски :)

Рядом с латынью был арабский. А некоторое время он доминировал, там где был родным.

Отказ от немецкого, как языка науки, был просто дистиллятом шовинизма. Тут есть один момент, обычно считается что переход со всякой "латыни" на родной язык обучаемого способствует прогрессу. И мне не очень понятна стратегия, при которой одни переходят со всяких "латыней" на национальные языки, и уступают такое право только умывшись кровушкой (немцы в 1й мировой, французы в наполеоновские войны), а другие должны воспринимать переход от родного языка на совсем неродной чей то язык за благо? Ведь в случае мертвого языка --- классический греческий и такая же латынь, барьер стоит перед всеми одинаковый, и стартовые условия равны. Вот никто ведь арабский не стал учить, ограничились переводом книжек обратно на латынь.

А с греческим действительно нехорошо получилось, последней анатомия сдалась в СССР, в 80е. Правда в пользу латыни :).

Кратко резюмируя (С) :) будущее за системами статистического перевода :)

Но пока их нет --- нужен индекс с поддержкой кириллицы, может хоть на учебники перестанут ссылаться :) мне на рецензию статьи носить из вестника не пытаются, я сразу сказал, что ссылки на учебники не пройдут :)

[identity profile] dr-klm.livejournal.com 2011-03-25 01:52 pm (UTC)(link)
Если отказаться от измерений, вся наука превратится в русскую филологию.

Видите возможность улучшить citeseer, код здесь (http://sourceforge.net/projects/citeseerx/).

Думаете, что не ссылаются на первоисточники потому что не находят ? А я думаю потому, что не ищут. Даже если найдут, не будут читать. Даже если попытаются читать -- не поймут. Хотя, может быть правы Вы, а я не прав. Хорошо бы... ;-)

К.Л.М.

[identity profile] p2004r.blogspot.com (from livejournal.com) 2011-03-25 02:56 pm (UTC)(link)
Да, сейчас смотрю добавить кириллицу по проще будет :) Когда я смотрел первый раз это был кластер полностью написанный на перле, в пределе на каждую букву алфавита запускалась отдельная машина.

Теперь я смотрю всё локализовано в ParsCit. К сожалению много heuristic regularization забито в код именно для английского, но это вполне решаемо.

Еще не понятен вопрос с Conditional Random Fields , если там нормализация языка как этап обработки, то русского там не предусмотрено скорее всего из коробки :(

[identity profile] dr-klm.livejournal.com 2011-03-25 05:24 pm (UTC)(link)
Не все, что можно сделать делать нужно. Тем более, за просто так...

Прелесть CRF в самообучаемости, которая ослабит зависимость от языка (она войдет в тренировочный набор данных, который прийдется дополнить кириллическими примерами), изменить прийдется некоторое ограниченное количество фиксированных токенов (типа "под ред.", а также названий известных журналов и издательств), пред-обработку (которая бы искала раздел "Литература" вместо "References") и пост-обработку (для регуляризации имен типа "Иванов-Петров И.П." в "И. П. Иванов-Петров" и страниц "с. 1234-6" в "1234-1236"). Ничего принципиально сложного (т.е. принципиально сложнее, чем то, что уже сделано для английского) в этом я не вижу, но это серьезная и кропотливая работа (если делать систематически).

Подозреваю, что сложнее будет универсальным образом вытащить кириллический текст из формата PDF. ;-)

К.Л.М.

[identity profile] p2004r.blogspot.com (from livejournal.com) 2011-03-25 06:00 pm (UTC)(link)
да, на http://pdfbox.apache.org/userguide/faq.html#gibberish_text

This is because the characters in a PDF document can use a custom encoding instead of unicode or ASCII. When you see gibberish text then it probably means that a meaningless internal encoding is being used. The only way to access the text is to use OCR. This may be a future enhancement.


Hо то мы ведь знаем, что "настоящие кириллические" ученые почему то вс[её] пишут в мсворде (шутка :)

[identity profile] dr-klm.livejournal.com 2011-03-25 08:01 pm (UTC)(link)
Да, именно в мсворде они и пишут. Причем, в ворованном. ;-)

Кстати, насчет OCR это в том FAQ зря. Да, (не говоря о разных фиксированных кодировках) бывают "оптимизированные" PDF, где кодировка специфична для документа. Тем не менее, зная для каждого символа комбинацию шрифт/код должно быть несложно восстановить кодировку для английского и русского. Например, частотным анализом (для построения начального приближения) и последующим сравнением со словарем (с уточняющими перестановками). Это отдельная задача. Если ее решить (например, в виде патча к тому-же pdftotext), то человечество скорее сказало бы за это спасибо. Задача не такая уж и тривиальная, если искать универсальное решение (для языков, использующих алфавит).

К.Л.М.

[identity profile] savinov.livejournal.com 2011-03-23 08:45 am (UTC)(link)
Просто процесс определения "научной истины" стал более демократическим и делается это с помощью голосования. Человек может получить право выступить с научной трибуны в виде публикации , а читатели голосуют путем цитирования. Далее подсчитывают голоса и определяют победителя в разных номинациях с последующим дележом титулов и бабла. Это как музыке победитель определяется по количеству продаж дисков. Майкл Джексон тогда лучший певец. Ясно, что упаковка, лозунги и всяческие предвыборные технологии при общении с толпой очень важны. Но ведь это все равно лучше, чем если "научная истина" определяется королем или придворными учеными.

Но я в целом согласен, что правила игры имеют существенное значение. Кого пускать на трибуну. Как подсчитывать голоса. Какие номинации включить в конкурс. Но ведь правила игры это тоже часть научного бизнеса и для их продвижения должны быть свои продюссеры, промотеры, лоббисты и т.п. А их как раз нет. Например, может ли Филя Киркоров конкурировать с Мишей Джексоном по количеству продаж? Нет. То же самое и в научном бизнесе. Большой разницы я не вижу.

[identity profile] p2004r.blogspot.com (from livejournal.com) 2011-03-23 09:31 am (UTC)(link)
Ну с демократическим голосованием в науке все хорошо и раньше было, достаточно вспомнить легендарное голосование:

---8<---------

В 1772 году в Париже состоялось собрание членов Парижской Академии. Это был круг сиятельных лиц, к которому принадлежал, в частности, знаменитый химик Антуан Лоран Лавуазье. Парадоксально, но факт: великие ученые решали вопрос... голосованием. И порешили большинством голосов – метеоритов в природе не существует. Ученые Европы стали пытаться разыскать все сохранившиеся метеориты и удалить их из коллекций и собраний как ненужный хлам...

---8<---------

Научная истина по своей природе ортогональная и процессу финансирования науки, и процессу окормления ученых мужей, и демократичности режима при котором они творят.

Любой косвенный способ измерения статистически состоятелен, когда данные рандомизированы. Предположим, что нужную "корреляцию" измерили, и оценили "качество" научных трудов по некому набору показателей. Методика стала известной не только авторам но и "подопытным". Ни о какой достоверности введенного показателя не идет речи, когда в "продолжении эксперимента" сознательно силами самих "подопытных" идет отбор случаев за которые "дают морковку". Ну а поскольку новый искусственный показатель стал основным, и "дают морковку" тем у кого он выше, налицо обратная связь. Таким образом можно было бы _любой_ критерий хоть как то связанный с личностью исследователя и его активностью сделать "единственно верным и правильным".

В результате трудов "измерителей" ссылки, вместо инструмента обеспечивающего целостность и преемственность научных знаний, превратились в очередной "пенисометр". И основная функция ссылок просто не могла не пострадать.


PS ...чувство что уже на эту тему беседа была :)

[identity profile] savinov.livejournal.com 2011-03-23 10:19 am (UTC)(link)
> чувство что уже на эту тему беседа была

Это тема бесконечная и в этом смысле мало интересная. Она касается не только и пожалуй не столко науки. Речь идет о справедливости: сраведливая оценка, справедливая оплата, справедливый рейтинг и т.п. В искусстве вообще все субъективно - и как там оценивать кто круче всех? Все это упирается в правила игры (и далее в мета-правила -- правила изменения правил). Естественно, что тема всегда подымается недовольной стороной (проигравшими), которая пытается изменить правила в свою сторону.

Индекс цитируемости естественно примитивный и кривой метод и не очень ясно, что он описывает. Он ближе к степени популярности, чем к степень важности результата, трудности получения результата и или его качеству. Но он хорош своей простой и понятностью. Кроме того, он позволяет самой тусовке определять, кто в ней круче без наличия явной иерархии со своими блатными, избранными и неприкасаемыми. Можно придумать свой "научный iPhone" и далее раскрутить его - собственно чем все и занимаются. Термин "научная истина" здень конечно не при чем, поскольку это "научный бизнес". А далее следуют стандартные вопросы: А существует ли научная истина? И нужна ли людям научная истина? Я бы ответил отрицательно на оба вопроса.

[identity profile] p2004r.blogspot.com (from livejournal.com) 2011-03-23 03:56 pm (UTC)(link)
> А существует ли научная истина? И нужна ли людям научная истина? Я бы ответил отрицательно на оба вопроса.

Ну и кто "проиграл" то? :)

Природа это объективная реальность. Наука это то что постигает эту реальность, изучает-открывает её законы. Законы природы это истина в конечной инстанции которую можно только уточнять. Она существует ортогонально "людям" и их "бизнесу", тем более что в такой трактовке упомянутые даже не субъекты наблюдающие :) Короче "на фоне Пушкина снимается семейство..."(С)

Сухой остаток --- Хотите иметь объективную картину ссылочной "фалометрии" по СНГ, делайте индексатор ссылок с поддержкой кириллицы. Дикси.

[identity profile] dr-klm.livejournal.com 2011-03-23 04:59 pm (UTC)(link)
Боюсь, такой индексатор ссылок, если таки выложить "вестники" в интернет, покажет просто наличие белого шума. У меня сложилось впечатление, что те, кто там печатается ссылаются либо на учебники, либо на себя, либо на своих начальников (или начальников начальников). Усредняя по всей системе, эти разнонаправленные, как у "лебедя, рака и щуки" векторы, получим однородный мелкодисперсный ноль.

К.Л.М.

p.s. По общим вопросам я с Вами согласен. ;-)