大阪大学経営企画オフィス URA×IR｜大学のこれからを考える｜文献データを使った「大学の評価」とその意味

講演録公開文献データを使った「大学の評価」とその意味

2013年5月31日(金)【講演録公開】科学技術政策セミナー

開催日時

第2回科学技術政策セミナー

2013年5月24日（13:30-15:30）

大阪大学銀杏会館3階大会議室

開催概要

科学技術政策研究所（NISTEP）が2013年3月に発表した報告書「科学研究のベンチマーキング2012 -論文分析でみる世界の研究活動の変化と日本の状況-」では、日本の産出する論文数の伸び悩みがみられることや論文算出においてメインプレーヤーである国立大学の論文数が伸び悩んでいることなどが指摘されています。また、文部科学省の研究大学強化促進事業では、そのような状況を打破するために、世界水準の優れた研究活動や研究マネジメント体制の強化などを支援することが謳われています。

このような根拠を示すデータとして論文の被引用数等の文献データが「客観的データ」としてあげられます。そこで、第2回目となる本セミナーでは、文献データを扱う科学計量学に焦点をあて、そのデータの性質や解析手法の意味をどのように理解すればよいのかという基本的な知識を学びながら、様々な情報を圧縮して得られたデータをどのように個人の研究評価や大学全体の評価と結びつければよいのかを考えました。

調麻佐志

東京工業大学理工学研究科　准教授

プロフィール：1965年生まれ。1989年東京大学理学部数学科卒業、1995年東京大学大学院総合文化研究科広域科学専攻博士課程単位取得退学。博士（学術）。信州大学人文学部講師・助教授、東京農工大学大学教育センター准教授等を経て、現在は東京工業大学大学院理工学研究科准教授。文部科学省科学技術政策研究所客員研究官を併任。専門は科学計量学、科学技術社会論。著書は『研究評価・科学論のための科学計量学入門』丸善出版（共著）など。

被引用数はなにを示しているのか

私の専門は科学計量学と呼ばれる分野です。科学計量学は科学技術の活動をなんらかの数値に基づいて分析し、その理解を深めようという学問分野です。その知見は研究評価にも使われますが、私自身は数字によって評価をどんどん行っていくことをあまり好みません。もちろんまともな使い方をすればそれなりに妥当な評価ができるのはわかりますが、行き過ぎた評価への利用に警鐘を鳴らすための文書を書いている方が同じ分野の仲間たちにも多いのが現状です。また、私はもうひとつの専門として科学技術社会論という分野にも関わってきました。

まず、「文献データ」について簡単にふれます。科学計量学においては概ね文献=学術文献であり、実質的に文献データベースに収録された学術誌に掲載された論文のみが文献とみなされます。そして、文献データとはその文献の書誌情報を指し、収録誌、巻・号、ページ、タイトル、要旨、発行年、著者、所属、分野、キーワード、参考文献、被引用数...などがそれに当たります。

さて、被引用数について話を移します。被引用数はある論文が別の論文に引用された回数を表し、学術論文の質の尺度によく用いられます。トムソン・ロイターのデータベースWeb of Knowledgeでは、Times Citedという項目名で論文ごとに数字が付与されており、これがその被引用数です。もう少し噛み砕いて説明をしますと、被引用数は人気投票の得票数のようなものです。たとえば100万枚CDが売れるのと95万枚売れるのでは、100万枚売れる方がいいCDである、とは言い切れないことからもわかるように、「得票数」を質の尺度とすることは必ずしも適切ではありません。とくに、論文の引用は肯定的に評価するから行われるだけではなく、間違っているからあるいは悪い例として論文が引用されることもありますし、引用されるからといってその論文が本当に読まれているとは限りません。あるいは、論文を投稿し査読を受けた際に、「なぜこの論文を引用しないのか？」と指摘され、従うことがありますが、実はそれが査読者の論文だったりすることもあります。

また、引用されやすい分野・そうではない分野があります。もともとリファレンスに出てくる文献の数が多いため、バイオ系分野は被引用数も結果として多くなりやすい分野です。また、論文の内容で見ると、たとえば基礎医学と臨床医学であれば、研究対象（たとえば、胃がん研究）を同じくしても基礎医学の論文の方が引用されやすいとされています。さらに著者の属性も被引用数に影響します。古い研究ですが、有名大学の著者の方が引用されやすいという調査結果があります。他にも引用される時期に関しても、論文が出てからすぐ引用される分野もあれば、そうでない分野もあります。バイオ系は論文が出てから比較的すぐに引用される傾向があるのに対して、人文・社会科学系では引用は非常に時間が経ってからなされることが通常です。このように、分野によって引用のされ方は様々です。

そもそも、論文の質と引用される回数はほんとうに関係があるのでしょうか。誤差があるとかそういうレベルではなく、そもそも全く整合しないことがあります。たとえば、田中耕一さんがノーベル賞を受賞した研究を考えてみましょう。授賞対象となった論文についてはそのリストが島津製作所のHPにも出ていますし、ノーベル委員会のHPにも出ていると思います。1本目は1987年に行われた日中合同シンポジウムで発表した論文ですから、そもそも論文がデータベースに収録されていません。その次は、"Rapid Commun. Mass Spectrom"というそれほど知名度が高くないジャーナルに掲載された論文です。この論文がある意味田中さんのこの研究に関する世界デビューの論文でしたが、ノーベル賞受賞前は非常に被引用数が少なかったです。ただ、当該論文は投稿した雑誌の被引用数-要はインパクト・ファクター‐が非常に小さい割にはよく引用されていました。そういう観点から言えば、一定程度注目された論文だったとも言えます。とはいえ、この例が示すように、論文の質、あるいは研究者としての能力というものを被引用数から探ることには深刻な限界があると言えそうです。

評価はなにを「評価」しているのか

大学の定量的な評価について少し触れていきます。世の中には様々な大学の評価がありえます。たとえば、センター試験点数の合格者ボーダーラインによる評価があります。受験生から見れば、これは非常に重要な指標です。ただ、学生のほとんどはボーダーラインの成績で入学するわけではないので、ボーダーにはどの程度意味があるのかと思わないではありませんが。運営費交付金で大学を並べてみれば国がどれだけ当該大学に力を入れているのかを見るのに役立つかもしれません。もっとも、それが果たして大学の質と関係しているのかというと疑問も残るでしょう。また、科学研究費補助金の大学別配分額による評価などもあります。科研費は「文系」と「理系」では金額は全く異なりますが、大学全体として研究に力を入れているかどうかについてそれなりに評価できそうです。そして図書館の蔵書数も言うまでもありません。100万冊の蔵書がある大学と200万冊の大学を比べれば、後者は多少なりとも魅力的でしょう。これらの例でなにが言いたいかというと、大学の定量的評価においてそれなりの指標を持ってきたらそれなりに意味がある解釈ができるということです。それぞれの指標には意味があるので、目的無しの指標による評価はむしろすべきでないことを肝に銘じていただければと思います。その上で、どういう考え方で評価に取り組む必要があるかという話をここからしたいと思います。

評価には様々な側面・目的があることにまずご注意ください。教育学には形成的評価（formative evaluation）と総括的評価（summative evaluation）という用語があります。「評価して点数をつける」のがよくある総括的な評価です。基本的には総括という言葉で表しているように、最終的な段階で実施する達成度の評価です。これに対して、評価によってどこが弱くどこが強いということをわかってもらった上で、どのようにその人を伸ばしていくかを判断するのが形成的評価です。この二つは、「なにを見るか」「どういう基準を使って評価しなくてはならないか」「結果をどう受け止めなければならないか」、そういうことが全く異なります。さらに、大学評価に関心のある方はよくご存知のようにaccreditationとevaluationというのは全く違った評価のあり方です。accreditationにおいては、順番や点数をつける必要はなく「ある基準に到達しているかどうか」、基準をクリアしているかを評価します。一方、最近行われる研究評価は、尺度や基準に照らすevaluationが中心になっていることが印象的です。その際には、研究の評価を受ける側もする側も順位をつけたくなるというのも興味深いところです。

評価の基準についてですが、外生的・内生的という表現が適当かどうかわかりませんが、外から与えられているような評価の基準もあれば、自らが評価すべき目標なり自らが考えた評価基準を使う場合もあります。また、評価そのものはベンチマーキングに代表的なような相対的な評価もあれば絶対的な評価もあります。それぞれの評価には、それぞれの考え方、目的、方法があります。

もう少し抽象的に考えますと、評価対象は単純なシステムであるとみなされがちですが、ご存知のように実際の大学はそんなに単純なものではなくかなり複雑です。

しかし、仮に大学を単純なシステムとみなした場合、その評価は基本的に出力をベースに行わなければならない、というのが現在の基本的な考え方です。出力だけを評価すればよいという意味ではなく、どのようなアウトプット、アウトカム、インパクトをそのシステムが出力しているかを必ず考慮して評価しなければならないという意味です。もちろん、組織の運営や体制を評価するのに、出力だけで評価することには無理がありますが、それでも出力を十分に理解した上で評価しなければなりません。そのときにはアウトプット、アウトカム、インパクトがとかく考慮の中心となりがちですが、評価対象を描き、描いた評価対象に対してどのような評価関数を適用するのかといったそれ以前の評価枠組みにかかる検討もまた重要です。

現実の大学システムはリニアではないですが、評価を考えるときはこのような枠組みで考えることが通例で、そのためたいてい評価はリニアモデルにしたがって行われます。その際、原則的に避けなければならないのは入力のみによる評価です。たとえば、大学を評価するのに、入試偏差値で評価するのは非常に馬鹿げたことだと思われます。入力だけで評価するのは避け、出力による評価を行うか、あるいは効率に基づいて評価する必要があります。もちろん組織を評価する際に効率だけに着目して評価するのも問題ですが、効率は組織の中身を評価する際には非常に役に立ちます。端的には、効率、つまり出力/入力などに着目して評価を行えば、規模や外部環境の影響を多少排除して評価することができるという利点があります。

評価のプロセスについて基本的なことだけ申し上げると、まず評価を行う時には、評価目的がなにかを明確に認識することが重要です。たとえば、大学で個人の評価を行う一つの機会として教員採用があります。教員採用を行うときの評価の目的は「適切な教員を選ぶ」ことでしょう。「適切な教員」とは何か、それを測るための基本的な考えはなにかということを検討して、たとえば研究者としての資質、あるいは質が評価対象となる概念というふうにまず定めます。実際このようにいつもリニアに評価が進むわけではないですが、評価対象となる概念を定めれば、次の概念を実際に測れるような対象に落とし込む作業へと進みます。この作業を我々は可操作化と呼んでいます。たとえば、研究者としての資質という概念を「どんな研究費を取ってきているか」「論文数が過去にどれくらいあるか」「被引用数がどれくらいあるか」「特許数がどうか」というような形に落とし込み、これらを測定します。その測定したデータに基づいて目的に対する判断を行っていくのが基本的な評価のプロセスです。このように評価プロセスには複数の段階があり、どこかの段階に間違いがあれば評価は適切ではなくなります。

評価あるいは評価手法の良さについては、たとえば3つの評価軸（妥当性・信頼性・効率性）から理解できるでしょう。一つ目の妥当性は、目的に対して各段階が適切かという観点です。優秀な教員を採ろうとして、「研究者の質が適当な教員採用の基準である」としてしまってよいかというと、場合によっては正しくありません。研究だけを基準に教員を採用してみたら、教育関係にはなにも興味を示さない教員を採用してしまい困ったという話を聞く機会が増えているように感じます。牧歌的な時代であれば「研究ができる人は教育もできる」などと言っていればよかったのですが、特に研究競争が激化していくなかで、「研究だけが実質的な大学教員の仕事である」と思っている方も増えているため、場合によっては大学運営にとって適切でない人をこの基準で採用してしまうかもしれません。さらに研究の質を評価するには、たとえば「論文数で質を評価することが適切かどうか」についても考えなければいけません。それが適切かどうかはケースバイケースでしょう。

二つ目の評価軸は、信頼性です。「適切な測定値が得られるかどうか」は評価にとって重要で、その測定で得られた数値が適切な測定値であるかについては念入りの検討が必要です。そのときには、評価あるいは測定そのものの頑健性などについても考慮したいところです。三つ目の評価軸は効率性です。たとえば、評価において100種ぐらいのデータを集めることが許されるのであればそれなりのことは見えてきます。理屈はそうですが、そのような多種多様な数字を集める作業の時間があるのなら、また別のやり方（たとえば、徹底した面接）で評価した方が効率的かつ適切な場合もあるでしょう。

頑健性の話を致しましたが、7-8年ほど前から流行しているh-indexは頑健とされる指標の１例です。h-indexは、もともとは長期間にわたる研究者の業績を評価しようという発想から出てきた指標です。ある研究者が評価時点までに出版した論文を被引用数順に並べて棒グラフにしたときに、45度線と交わる値がh-indexです。この指標については、明らかに若い研究者は低くなりやすく、また年を取った研究者のほうが高くなる傾向あります。その意味では世代の違う研究者、あるいは分野の異なる研究者をこれで比較することは問題です。

それはさておき、たとえば、平均の被引用数で特定の研究者を評価するためにはデータベースで当該個人の論文すべてを特定することが必要ながら、それは困難な作業です。リサーチャーIDが付与されている研究者については容易ですが、それがされていない場合、個人とその論文を完全には紐付けできないことも多いです。h-indexは、そういう紐付けのエラーにより論文１本ぐらいが抜けても大きくは変動しません。たとえば、一番引用数の高い論文が抜けたからといって、その値が半分に下がるといったことはまずありません（論文数があまりに少ないときは別です）。ところが平均被引用数で評価しようとすると、一番引用数の高い論文が抜けると値が大きく変動することが多々あります。要は、多少の測定ミスがあっても値が変動しにくいため、h-indexは頑健性という観点では良い評価指標と言えます。

科学技術・学術政策研究所（NISTEP）が出している「Q値（論文数に占めるトップ10％補正論文数の割合）」という指標があります。これは「窮地に追い込む」というキュウチなのかなとも思うのですけれども、この値が低いことがしばしば問題視されます。東京工業大学では、自大学について被引用数上位10％だけではなく「被引用数上位1％論文がどれくらいあるか」を分析したことがありました。そうしたところ、Ｑ値はさほどでもないのに1.3%とか1.4%とか、分野によっては2%を越える分野がありました。つまり、トップ中のトップの論文の割合がとくに高い分野があったのです。このように似たような指標であっても異なる結果を示すこともありえます。

引用数という観点から大学ランキングを上げるにはどうすれば良いかとたまに訊かれます。決してお勧めするつもりはないですが、そのためには、あまり引用されないだろうと見込まれる論文は、データベースに収録されないジャーナルに投稿するという方針を取るのがうまいやり方です。具体的には、たとえば博士課程学生が「学位を取得するために書く3本」といった論文は、オープンアクセスジャーナルなどまだデータベースに収録されていないジャーナルに投稿するのが良いかもしれません。オープンアクセスジャーナルは、査読のサイクルも早いですから、学生もその点でもハッピーでしょう。

そもそも学位を取得するために3本という基準の設定自体がおかしな話ではないでしょうか。先進国内でも国によってはむしろ学位を取るまでは論文出版にさほどこだわらないこともあります。学位の認定は、外からの審査員も含めてインハウスの基準で行うべきものであって、結果的に論文誌に学位の審査を任せるような基準の設定は、大学による権威の放棄だと思います。

被引用数を高めるために１つ重要なことは「日本人同士で引用すること」です。他国と比べて日本の研究者は、同国の論文をあまり引用しないという残念な傾向があると言われています。適切な引用であれば、同国発の論文を引用することはどこの国でも行っています。そのような状況において、過剰に引用しない傾向がもしあれば、それは問題でしょう。そこを他国並みに引用することでランクアップにつながるのであれば、それぐらいは考えてもいいのではないでしょうか。

フロアとの意見交換

参加者：たとえば、政策的にある分野について広めたいという時に、国際的な枠組みに入り込んでいるのか、いないのかという点でどういう影響があるのでしょうか。

調：たとえば、文科省が「外国人教員1500人」といったターゲットを提示しています。一方で、大学側の事情を考慮すれば一気に1500人を採用することは難しいでしょう。いちばん現実的なのは、ある程度完成した外国人研究者を増やそうとするのではなく、海外から優秀なポスドクを採用し、あるいは優秀な若い人をテニュアトラックで採用し、どんどん成果を出してもらい、成果を出した研究者をポジションにつけていく。そういうことをすれば一部の研究者は恩を感じて日本に残るかもしれません。それ以上に、そうやって日本にきた研究者が国内の研究者と共同研究をし、その後それぞれの国へ戻り国際的な研究ネットワークができるといったプロセスを通じて「国際的な枠組みに入ること」を実現するのが現実的と思います。また気の長い話ですが、優秀な学生を外に送り出すことも時間をかけて進めなければならないでしょう。

*田中耕一ノーベル賞受賞関連情報　文献リスト：http://www.shimadzu.co.jp/aboutus/ms_r/nobel/doc2.html"

2018年3月24日(土) 更新
ページ担当者：福島

Policy Seminar