NotebookLMを使ってブログを作成してみる
- Devinについて検索してNotebookLMのソースにする
- ブログ作成を指示する
基本形 ソースの内容を元に、技術ブログを作成してください。 以下の点に注意してください。
- 冒頭に簡潔な要約を入れる
- 見出しを適切に設定する
- コードや図表についても言及する
- マークダウン形式で出力する
- 専門用語は適切に説明する
- 箇条書きとテーブルを効果的に使用する
結果は以下の形。2025年5月の情報をもとにしている。
AIソフトウェアエンジニア「Devin」の衝撃:その能力と開発者コミュニティの反応
要約
Cognition Labsが発表したAIソフトウェアエンジニア「Devin」は、自律的に複雑なコーディングタスクをこなす能力で大きな注目を集めています。新しい技術の学習、アプリケーションの構築・デプロイ、バグ修正、AIモデルのファインチューニング、オープンソースプロジェクトへの貢献、さらには実際のフリーランス業務まで遂行できるとされています。業界標準ベンチマークであるSWE-Benchでは、従来のAIツールを大きく上回る性能を示しました。
しかし、Devinに対する開発者コミュニティの反応は賛否両論です。その能力に驚きを示す声がある一方で、マーケティングによる過大広告や実際の能力への疑問、人間の監督の必要性、そしてソフトウェアエンジニアの雇用への影響を懸念する声も多く挙がっています。
DevinのようなAIツールは、ソフトウェア開発のワークフローに大きな変化をもたらす可能性を秘めていますが、現時点では人間の開発者との協働が不可欠であり、コミュニケーション、要件定義、設計、レビューといった、AIが苦手とする領域の重要性は依然として高いと考えられています。
AIソフトウェアエンジニア「Devin」とは?
Devin AIは、Cognition Labsによって開発された自律型人工知能アシスタントツールです。同社はこれを「AIソフトウェア開発者(AI software developer)」とブランディングしており、複雑なソフトウェア開発タスクを完了するように設計されています。Devinは、大規模言語モデル(LLM - 人間が話すような自然な言葉を理解し、応答を生成するAIモデル)と強化学習を組み合わせて開発されたとされています。ユーザーが自然言語でタスクを指示すると、計画を立案し、コードを実装する過程を示しながら作業を進めます。サンドボックス化されたコンピューティング環境内で、シェル、コードエディタ、ブラウザといった一般的な開発者ツールを利用できます。Devinはリアルタイムで進捗を報告し、フィードバックを受け付け、設計に関する選択肢についてユーザーと協力して作業することも可能です。
驚異的な能力の数々
Cognition Labsは、Devinの様々な能力を示す具体例を挙げており、その印象的な機能を紹介しています。具体的な能力の一部を以下に紹介します。
- 新しい技術の習得: ブログ記事を読んだ後、ControlNet on Modalを実行して隠しメッセージ付き画像を生成する。これは、Devinが新しい情報を読み込み、それを活用して特定のタスクを実行できることを示しています。
- アプリケーションの構築とデプロイ: Game of Lifeをシミュレーションするインタラクティブなウェブサイトを構築し、ユーザーの要望に応じて機能を追加し、Netlifyにデプロイする。Bloombergのテストでは、わずか10分でウェブサイトを作成したり、Pongのウェブサイトを再現したりできたと報告されています。これは、Devinが要件に基づき、機能を持つアプリケーションを一から構築し、公開できる能力があることを示唆しています。
- バグの発見と修正: コードベース内のバグを自律的に見つけて修正する能力があり、オープンソースのプログラミング競技書籍のメンテナンスやデバッグを支援する。Devinは、バグを特定し、その原因を分析し、修正コードを実装し、テストを行える可能性があります。
- AIモデルのファインチューニング: GitHub上の研究リポジトリへのリンクのみから、大規模言語モデルのファインチューニングを設定する。これは、Devinが自己に関連する領域(AIモデル)のタスクもこなせることを示しています。
- オープンソースプロジェクトへの貢献: GitHub issueへのリンクを与えるだけで、必要なセットアップやコンテキスト(コードベース全体の構造や履歴などの文脈情報)の収集を行い、問題に対応する。SWE-benchベンチマークの一部として、sympy Python代数システムにおける対数計算のバグを解決し、開発環境のセットアップ、バグの再現、コード修正とテストを自律的に行いました。
- 実務タスクの遂行: Upworkのようなフリーランスプラットフォームで実際の仕事にも挑戦し、コンピュータービジョンモデルを実行するためのコードの作成、デバッグ、データのサンプリング、最終レポートのコンパイルを行いました。DevinがAI企業での実務面接に合格したという主張もあります。
Devinは、長期的な推論と計画における進歩により、数千の決定を要する複雑なエンジニアリングタスクを計画・実行できるとされています。関連するコンテキストを各ステップで思い出し、時間をかけて学習し、間違いを修正する能力も備えています。
業界標準ベンチマーク「SWE-Bench」での実績
Devinの性能を評価するために、Cognition Labsは、Djangoやscikit-learnといったオープンソースプロジェクトで発見された実際のGitHub issueの解決能力を問うSWE-benchというベンチマークを使用しました。SWE-benchは、AIエージェントのソフトウェアエンジニアリング能力を評価するための挑戦的なベンチマークです。
Devinはこのベンチマークにおいて、人間の支援なし(unassisted)で13.86%のissueをエンドツーエンドで正確に解決しました。これは、以前の最先端モデルの1.96%(支援なし)や、修正すべきファイルが正確に指定された場合の最高のモデル(支援あり)の4.80%を大きく上回る結果です。
以下は、SWE-Benchベンチマークにおける主な結果の比較です。
モデル | 支援の有無 | 解決率 |
---|---|---|
Devin | なし | 13.86% |
以前の最先端モデル | なし | 1.96% |
以前の最高性能モデル (編集ファイル指定) | あり | 4.80% |
この結果は、AIがより複雑なソフトウェア開発タスクを自律的にこなす能力が、Devinによって大きく向上したことを示唆しています。
開発者コミュニティの評価:賛否両論
Devinの発表は、開発者コミュニティで大きな話題となり、様々な反応を引き起こしました。その評価は賛否両論です。Redditのスレッドでは、Devinに対する開発者の意見が多岐にわたることが報告されています。
期待される点
Devinの能力に対して、多くの開発者がその有用性や生産性向上への貢献を期待しています。DevinのようなAIツールは、開発者の生産性や効率を大幅に向上させる可能性があり、特に定型的な作業やボイラープレートコード(定型的な記述が反復されるコード)の生成に役立つという意見があります。開発者が期待するAIの個人的な利点として、生産性の向上(51%)、デプロイの高速化(44%)、精度の向上(40%)が上位に挙げられています。コード生成やコード提案は、AIを適用したいソフトウェア開発のユースケースとして最も多く関心を集めています(55%)。
AIは、慣れない言語での簡単なスクリプト作成やバグ修正を容易にし、新しい言語やライブラリを学ぶ際の助けとなる可能性があります。AIがテスト生成に非常に役立つという声があり、QA(品質保証)はAIが最も恩恵をもたらす分野の一つだと指摘されています。
Devinへの楽観論はAI愛好家の間で見られ、公開への期待が高まっています。Stripeの共同創設者や元OpenSeaのCTOなど、実際にDevinを使用した開発者からは、その能力を賞賛する声も挙がっています。
懸念される点
一方で、多くの開発者はDevinの発表に対して懸念や懐疑的な見方を示しています。
- 過大広告の可能性: Devinのマーケティングが実際の能力を過大に表現している可能性があるという懸念が広く共有されています。デモ動画が特定のプロンプトに基づいたものであり、完全な自律性を示しているわけではないという指摘があります。また、デモ動画で示されたUpworkのタスク遂行についても、実際には要求されたタスクに対応できていなかったという批判が出ています。Redditでの意見の中には、「Devinは詐欺で過大広告」「Devinはキャッシュグラブ、悪いデモ」「DevinはChatGPTのラッパー」といった厳しい意見も見られます。
- 仕事への影響と雇用の懸念: 2023年から2024年にかけてのハイテク業界でのレイオフ(人員削減)の背景もあり、Devinのようなツールがエンジニアを代替し、特に下位レベルの仕事をなくすのではないかという懸念が議論されています。特にジュニア開発者が、ツールに依存しすぎて基礎的なスキルを習得できないままになることへの懸念や、ジュニア開発者の給与への影響を心配する声があります。あるアンケート(図として示されている)では、回答者の半数以上(57%)が、AIが今後5年以内に自身の職務を代替すると考えていることが示されています。
- 完全な自律性への疑問と人間の監督の必要性: Devinが複雑なタスクをこなせる一方で、まだ人間の監督を必要とし、完全な自律性には程遠いと感じる開発者は多いです。AIはタスクを完了しても、そのコードが正しく、現在のコードベースや会社の開発文化に適しているかどうかのレビューと修正が必要であり、これは「役立つインターン」に例えられています。Redditの議論では、「Devinはまだ人間を置き換えない」「Devinはインターン、進化する」といった意見があります。
- 技術的な限界: Devinは複雑なタスクをこなす能力があるものの、技術的な限界も指摘されています。エラー修正や不要なコードの削除が完全ではない。コードベースのコンテキスト(コードそのもの以外の、設計思想やチーム内の決定などの文脈情報)を理解するのに苦労し、特に既存の複雑なアプリケーションの変更には向かないという意見があります。正確性や信頼性にも疑問が投げかけられています。開発者はAIが生成した出力への信頼性が他の職務より低い傾向が示されています(38%が信頼性に欠けると回答)。古いREADMEファイルのように、情報の正確性が保証されないソースを鵜呑みにすることへの懸念もあります。
- セキュリティ、プライバシー、IPに関するリスク: AIツールを使用することによるセキュリティ上の脆弱性の導入(39%)や、AIが生成したコードの著作権保護の不明確さ(48%)といった懸念も多く挙げられています。企業の機密情報やコードがAIの学習データとして使用されることへの懸念から、社内でのAIツールの使用を禁止する企業もあることが報告されています。回答者の圧倒的多数(90%)が、AIツールを選定する際にプライバシーと知的財産保護が重要であると回答しています。
- コスト: AI APIの利用料が高額になる可能性も懸念されています。
- 開発者の実際の仕事との乖離: 開発者の仕事はコーディングだけでなく、要件定義のためのコミュニケーション、設計、デバッグ、テスト、レビューなど多岐にわたります。AIがコーディング部分を効率化しても、全体の生産性向上にどれだけ寄与するかは疑問視されています。AIが苦手とする人間的な側面(要件の曖昧さの解消、エッジケースの考慮、チーム間の調整など)は、ソフトウェア開発において非常に重要です。
DevSecOpsチーム(開発、セキュリティ、運用を統合したチーム)を対象としたアンケートでは、AIがソフトウェア開発ライフサイクルに導入されることへの懸念を「非常に」または「極めて」感じている回答者が全体の32%いる一方で、「全く」または「ほとんど」感じていない回答者も23%いることが示されています。
AIは開発者を置き換えるか?
DevinのようなAIツールが登場したことで、「AIがソフトウェア開発者を置き換えるのか?」という問いが活発に議論されています。これに対する様々な見解が示されています。
多くの意見は、AIが開発者を完全に置き換えるのではなく、開発者を支援するツールとして機能するというものです。AIは定型的なタスクやコード生成を効率化できますが、人間の開発者が持つスキル、特に創造性、コミュニケーション、問題解決能力、コンテキスト理解、レビュー、デバッグのスキルは引き続き不可欠であると強調されています。ソフトウェア開発は、単なるコーディングの構文だけでなく、要件の理解、ユーザーのニーズへの共感、エッジケースの考慮などが含まれる仕事であるため、これらの人間的な側面はAIにとって依然として難しい課題です。
あるアンケートでは、AIが人間の経験を置き換えることはできないという見方が示されています。特にセキュリティや知的財産といった懸念に対処するためには、AIと人間の開発者の協働が不可欠であり、AIが生成したコードのレビューと検証は人間の役割となります。これは、「AIはコードをより迅速に生成できるかもしれないが、人間のチームメンバーがエラー、セキュリティの脆弱性、著作権の問題がないか検証する必要がある」と説明されています。
「AIは人を置き換えるのではなく、AIを使う人がAIを使わない人を置き換えるだろう」という見方も提示されています。これは、AIツールを効果的に活用できる開発者が、そうでない開発者よりも競争力を持つようになるという考え方です。そのため、AI関連のスキルを習得することが重要になってきています。あるアンケートでは、AI関連で学びたいスキルとして、機械学習、LLM、自然言語処理(NLP)、Prompt engineering(AIモデルからの望ましい応答を引き出すための質問や指示を作成する技術)、Data scienceなどが挙げられています。
まとめ
CognitionのAIソフトウェアエンジニア「Devin」は、自律的なタスク遂行能力とSWE-Benchでの高い性能により、ソフトウェア開発の世界に大きなインパクトを与えました。その能力は、開発プロセスを効率化し、開発者がより創造的なタスクに集中できるようになる可能性を示唆しています。
しかし、現時点ではまだ完全な自律性には至っておらず、マーケティングによる過大広告の可能性、技術的な限界、そして雇用の影響やセキュリティ・プライバシーといった懸念が開発者コミュニティから寄せられています。多くの開発者は、Devinを強力なアシスタントツールとして捉えており、人間の監督とレビューは依然として不可欠であると考えています。
DevinのようなAIツールは、ソフトウェア開発の未来に大きな変化をもたらすでしょう。しかし、コードを書くことだけでなく、要件の理解、設計、チームとのコミュニケーション、複雑な問題解決といった人間の能力が求められる部分は、今後もソフトウェア開発者の重要な役割であり続けると考えられます。歴史的にも技術は新しい仕事を創造してきたという見方もあり、DevinのようなAIを効果的に活用できる開発者が、今後のソフトウェア開発を牽引していく可能性があります。
Devinは現在早期アクセス段階であり、その進化と実際の開発ワークフローへの統合が今後どのように進むのか、引き続き注目していく必要があります。