AIサービス乱立時代における能力比較:トランプ政治献金を例に検証
-
-
人工知能(AI)サービス市場の拡大にともない、ビジネスパーソンにとって情報収集や業務効率化の選択肢は格段に増えている。Felo、Perplexity、Grok、ChatGPT 4.5、Geminiなどのサービスがそれぞれ異なる強みを打ち出すなか、サービス間の能力差を把握することは、正確なデータと分析を必要とするビジネスパーソンにとって急務だ。本記事では、ドナルド・トランプ氏への政治献金に関する質問を5つのAIに投げかけ、その回答内容を比較することで、各サービスの特性を明らかにする。読者が自らの業務に最適なAIを選ぶ際の指針となることを目指す。
検証の枠組み
検証では、以下の質問を使用した。
「ドナルド・トランプ氏への政治献金を、過去から現在(2025年3月時点)まで遡って教えてください。具体的には、16年、20年、24年の大統領選挙キャンペーン、およびその他の関連政治活動(例:就任式、PACへの寄付)における献金の総額、主要な献金者(個人や企業)、その金額、時期、使途を、信頼できるデータ(例:FECやOpenSecrets)に基づいて詳細に記述してください。とくに、イーロン・マスクとミリアム・アデルソンの貢献に注目し、彼らの献金額とその影響を他の献金者と比較してください。さらに、トランプ氏への献金の傾向(例:小口献金の割合、大口献金者の変化)を分析し、その背景についても簡単に触れてください。」
回答は以下の5基準で評価し、各10点満点で採点した。
1. 正確性:データの信頼性や事実誤認の有無
2. 詳細さ:情報量と分析の深さ
3. 自然な日本語:表現の流暢さと業務文書としての適合性
4. 柔軟性:質問への適応力と実践的提案の有用性
5. 情報収集能力:最新データや外部ソースの活用度各AIサービスの回答と能力
Felo:簡潔だが不正確
Feloは16年の総額を3億5,000万ドル、20年を4億5,000万ドル、24年を1億ドル超と報告。マスクの24年献金を7,500万ドル、アデルソンを9,500万ドルとした。簡潔で読みやすいものの、FECデータ(20年10億ドル、24年13億ドル)と比較すると総額が過小で、マスクの2億8,800万ドルも誤りである。さらに、時期や使途の記述に乏しい。
・評価:正確性4、詳細さ3、自然な日本語6、柔軟性4、情報収集能力3(合計20/50)Perplexity:情報収集力はあるが誤りも
Perplexityは24年の総額を55億ドルとし、マスクの献金2億5,900万ドルを内訳(7,000万ドルなど)つきで示している。引用元としてReutersなどを挙げるなど検索能力は高いが、55億ドルという総額は現実的とはいえず、アデルソンの金額にも不明点が多い。データの一貫性に難があるため、総合的な信頼性が低下している。
・評価:正確性5、詳細さ6、自然な日本語7、柔軟性5、情報収集能力8(合計31/50)Grok:正確性と詳細さで抜群
GrokはFECデータに基づき、16年3億3,600万ドル、20年10億ドル、24年13億ドルと比較的正確な数字を示した。また、マスクの2億8,800万ドル(24年7〜11月)、アデルソンの1億ドル(同7〜9月)を時期や使途(広告1億6,900万ドル)と合わせて詳述。小口献金の割合(16年45%→24年7.5%)やその背景なども分析し、日本語表現も自然で読みやすい。
・評価:正確性10、詳細さ9、自然な日本語8、柔軟性9、情報収集能力10(合計46/50)ChatGPT 4.5:文体は優れるが最新性に欠ける
ChatGPT 4.5は16年3億ドル超、20年7〜8億ドルと、そこそこ妥当な総額を提示。アデルソンの20年献金(9,000万ドル)にも言及している。しかし、マスクの24年献金2億8,800万ドルを否定しており、事実誤認がみられる。日本語表現は流暢な反面、23年10月までの知識に依存しているため、最新性に限界がある。
・評価:正確性6、詳細さ7、自然な日本語9、柔軟性6、情報収集能力4(合計32/50)Gemini:回答不能で実用性ゼロ
Geminiは「政治関連の回答に対応できない」として回答を拒否。情報を得られないため、少なくとも政治関連の活用は難しい。
・評価:正確性0、詳細さ0、自然な日本語5、柔軟性0、情報収集能力0(合計5/50)ビジネスパーソンにとっての活用ポイント
AIツールの選択は、求める機能や精度によって異なる。たとえば、財務分析や政策調査などではGrokの正確性(10点)と情報収集能力(10点)が強みとなり、FECのような公的データに基づく分析は経営判断にも直結しやすい。文書作成やプレゼンテーションの分野では、ChatGPT 4.5の自然な日本語表現(9点)が役立つ一方、最新データ面にはやや不安がある。Perplexityは情報収集能力(8点)が高く検索性に優れるが、提示される数値の検証を別途行う必要がある。Feloは速報性を重視する軽い用途限定での利用にとどまり、Geminiは政治関連の情報が得られないため、実用性は極めて低い。
結論:現時点で最適解に近いのはGrok
5つのサービスを比較した結果、本検証の範囲では「Grok」が最も優れた性能を示している。総合評価46点と高得点で、正確性・詳細さを兼ね備えたうえに最新データへの対応力にも優れていることから、業務効率の向上や意思決定への寄与が期待できる。
一方、「ChatGPT 4.5」は文体や言い回しなど、表現力を要する用途には向いているものの、事実関係の精度や最新情報への追随性においては課題がある。「Perplexity」は検索能力が高く初期調査には向いているが、提供される数値を検証する手間を要する可能性があるため、信頼度を重視する業務には注意が必要である。
ただし、ここでの結論は25年3月3日時点のものであり、AI技術は日々進化を続けている。1カ月先であっても情勢が変化する可能性は十分にあるため、エンドユーザー自身による継続的な評価が欠かせない。加えて、現場での実務運用や同僚間の情報共有を通じて、最新の使用感やノウハウをアップデートし続けることが、AI活用の品質と効率を高めるうえで重要である。
【児玉崇】
関連キーワード
関連記事
2025年2月25日 13:402025年2月21日 15:302025年2月20日 13:002025年2月26日 13:302025年2月6日 11:002025年2月5日 15:002025年1月24日 18:10
最近の人気記事
まちかど風景
- 優良企業を集めた求人サイト
-
Premium Search 求人を探す