世界経済評論IMPACT(世界経済評論インパクト)

No.1211

ビッグデータは正しくない?!

鶴岡秀志

(信州大学カーボン科学研究所 特任教授)

2018.11.26

 11月17〜18日に恒例の白馬会議が開催され基調講演者としてお招き頂いた。我が国の抱える課題について,事実を踏まえたタブー無しの真剣な議論が熱く交わされ会議の進化を大いに感じた。白馬会議は年々重要な議論の場として育っていくだろう。ここで可能なことは我が国の最重要機関である国会でも可能なので議員の方々,特に野党やメディアの方々には「ためにする」議論からの頭の切り替えを希望する。読者の皆様にも,是非,白馬会議へ参加して歯に衣着せぬ意見を表明していただきたい。それこそが我が国のイノベーションの起点になるだろう。今回は,筆者への質問から改めて考えさせられた点を取り上げたい。

 政府方針として,ビッグデータとAIの活用によりイノベーションを起こすことが提唱され予算が組まれている。この論拠は,ビッグデータが事象や活動を網羅しているために人智を超えた優れた解決策をAIで予測可能という極めてあやふやな前提に基づいている。その根拠として,SUICA,Amazon,UBERなどは人々の行動を捉えているので蓄積された記録から将来の予測ができるという事実がある。しかし,イノベーションの一つとして提唱されている新規物質合成など科学技術分野は,これらの電子決済処理や自動車の位置情報把握等とは全く異なる。なぜなら,論文は「成功」したことだけが発表されていて膨大な失敗の記録は死蔵されている。必然的に情報のごく一部分がビッグデータなので,最新のデータサイエンス手法を用いても偏った結論に導かれることになる。加えて,有名科学雑誌のNature(Baker, M., Nature 533(2016))や米国科学アカデミー紀要(Fanelli, D., PNAS 115(2018))等が指摘するように,厳しい査読を経た論文でも再現性のあるものは最悪10%になってしまうと報告されている。この数字は,研究者として常日頃論文を研究している筆者の実感に近い。仮に条件付きでも論文という偏ったデータを収集して予測をすると,半分以上が「ナンチャッテ」データだとしたらビッグデータから新規の物質合成方法を見つけることなど不可能である。

 昨今,気になることは,30年以上前に報告されていて電子化されていない情報は存在しなかった事になっている状況である。電子化されずビッグデータ化できないものは「情報なし」となってしまう。そのため,過去の研究とほぼ同一のことが新規発見として報告されることになる。さらに,「既往報告に記載されている方法…」という内容を確認するために引用文献を遡っていくと紙文献に行き着いて,どこにも書いてないというものまである。引用も情報なのでこのケースではAIは「分析不能」と結論付けるだろう。一例として,炭素材料の原子配列とエネルギーの関係を調べると,このテーマの教科書に必ず掲載されている1920年代の論文掲載図が,最近の出版本では引用なしで掲載されているものが登場している。オリジナルの論文は幸いにも電子化されているので原典を簡単に見ることができるが,最新の電子教科書を使うと「出典不明」とされるだろう。この論文のMissing Link問題は材料や応用化学分野で目立っている。身近なところでは,海洋への油流出時に使う油吸着材は1980年頃までに特徴とコスパで整理されたリストが便覧に記述されているが,最近の研究者は便覧に掲載されていることを新規として発表してくる。査読する方も指摘しないところを見ると便覧を確認することもしないのだろう。このような状況では,筆者の愛する明石町「塩瀬」の常用饅頭の製造方法を新規発見としてAIが報告する日も近い。

 欧州では極力動物実験を行わずに,これまでに蓄積されている毒性評価研究の文献情報データを使って新規化学物質の安全性評価を行うために,Read-Across Assessmentという方法の導入を実証研究している(Effectopedia)。これは類似した分子構造の物性データを活用して,新規物質の毒性を分子レベルから廃棄による影響まで予測しようというAIを用いたビッグデータ活用である。ところが欧州共同研究チームの2018年10月の論文では,実用化の壁は論文内容の再現性および報告されていない「毒性のなかった」情報の汲み上げと論じている。安全性研究では毒性がある物のみ論文になるという常識があるので論文収集だけでは正しい判断ができない。既に5年以上の時間とEC全体の叡智を集めているにもかかわらずビッグデータの活用の難しさを示している好例と言える。

 メディアの代表という訳ではないが,国営放送のNHKが2017年から放送している「AIに聞いてみた」のお粗末さはWEB上で炎上から鎮火(無視されている)に向かっている。データサイエンティストからはコメントにも値しないものなのだろう。一見,三菱総研などの協力を得る形でいかにも専門家集団による知識向上番組を装っているが,視聴者の間違った理解を醸成するので疑似科学と言われてもしかたあるまい。おかしな結果になるのは,専門家に指摘されているように「決定木分析」(ディープラーニングの手法)という基本がなおざりにされていることが原因である。シロートである番組出演者(マツコ・デラックスと有働キャスター)に,あり得ない因果関係の連結を見せてAIの素晴らしさを視聴者に宣伝するという筋立てはデマゴーグに近い。同様にお粗末なNHK「ガッテン」は,科学番組のふりをしたTVショッピングである。タレントの無駄なやり取りを省くとたった5分の内容である。受信料を強制徴収しているNHKが作る番組ではない。ラジオで真剣勝負の「夏休み子供科学電話相談」を放送しているのだから,テレビも往年の「ケペル先生」に立ち返ってみてはどうか。

 ビッグデータの可能性の夢を振りまくようなメディアの傾向は憂慮すべきことであり健全な産業発展に水を差す結果となりかねない。また,詐欺のネタをわざわざドロボーに教える必要はないと思うのだが。

関連記事

鶴岡秀志

科学技術

etc.

最新のコラム