Pythonで初めて機械学習プログラミングを学習しようとする初心者・未経験者向けに、Pythonの機械学習プログラミング本を紹介・レビューしています。
※ 本ページはプロモーションが含まれています。
ここでは、Pythonの機械学習プログラミングの入門書を紹介しています。機械学習はAIに内包される主要技術の1つです。
ですので、AIエンジニア・プログラマやビッグデータ関連のデータサイエンティストになるには、機械学習プログラミングの知識やスキルは必須です。ちなみにこのAIやビッグデータ関連の優秀なプログラマ・エンジニアは、かなり高報酬を得られる需要の高いエンジニア職種です。
Pythonで機械学習プログラミングの基礎を勉強をしたい方や、今後仕事でAI・ビッグデータ関連のプログラマやデータサイエンティストを目指している方は、参考にしてみてください。
Pythonで儲かるAIをつくる
本のタイトルに"儲かるAI"と含まれていますが、中身はPythonの機械学習プログラミングの入門書です。
PythonでAIを作りたい入門者・初心者が、機械学習の基本知識とPythonで機械学習プログラミングのスキルを身につけるための本になっています。
また、機械学習によるAIを実務に取り入れて業務を効率化して改善したい人や、PythonのPoC(技術検証)で終わらずに業務のAI化を始められる人になるためのとっかかり本としても良いと思います。
ですので、前提知識としてPythonの基本プログラミングのスキルがあって、機械学習プログラミングの経験はないが、今後Pythonで機械学習を使えるようになりデータサイエンティストエンジニア・プログラマを目指したい、スキルを身に付けたいと考えている人には良いでしょう。
本の内容ですが、1・2章は機械学習入門者のために機械学習の基本的な知識について説明しています。
そして、3〜5章で実際にPythonで機械学習プログラミングを経験していきます。まず、3章は基本的な機械学習の流れをPythonでプログラミングをしながら経験します。データの取り込みから始まり、scikit-learn,pandasというライブラリを使って表形式データを扱えるようにし、機械学習のアルゴリズムを選択し、学習したり予測・評価・チューニングしたりします。
pandasはデータ解析機能を提供するPythonのライブラリで、特に行や列のある表形式データを処理・操作する事ができる機械学習プログラミングでよく使われるライブラリです。
また、scikit-learnもPythonの機械学習ライブラリで、様々な機械学習の分析モデルを提供してくれます。scikit-learnのおかげで、難しい数学や統計学の理論を学ぶ事なく、機械学習が実行する事ができます。
4・5章は、3章の一連の流れをさらに詳しく説明しています。いくつかの具体例のデータを使ってPythonでの機械学習プログラミングを経験していく感じです。機械学習の各種アルゴリズムについてや、アウトプットとして線グラフや散布図などのグラフ描画をしています。
6章は、3〜5章の補足・まとめみたいな感じです。
あと、ページの最後の方にある講座機械学習のためのPython入門では、Pythonの機械学習で特に重要なモジュール・ライブラリのNumPy,pandas,matplotlibの最低限の利用方法について、初心者・入門者向けに説明しています。
NumPyは表形式のデータ間の計算を簡単にできるモジュールで、pandasの内部ではNumPyが動いています。
また、matplotlibは簡単にグラフを描画できるライブラリです。
スッキリわかるPythonによる機械学習入門
Pythonの機械学習プログラミングの入門書です。600ページ以上の大ボリュームの本で内容が濃いですが、Pythonで機械学習のプログラミングを勉強したい初心者・未経験者を対象にした本ですので、図解や会話方式の丁寧で読みやすい説明が多くあります。
機械学習やデータ処理に興味があって勉強したい方や、仕事として機械学習・AIやビッグデータ処理、データサイエンティストなどのITエンジニアを目指している方にとっては、良い本だと思います。
本の内容ですが、まず第1章~3章は、初めて機械学習を学習する人のための事前準備で、機械学習や統計学の基本的な説明になっています。ですので、まだPythonでコードは一切出てきません。
第1章は、AIと機械学習の基本的な用語と説明について、第2章は、統計学の基本的な用語と説明について、第3章は、機械学習によるデータ分析の一連の流れについて簡単に説明されています。
第4章から、簡単なデータを使って、Pythonで機械学習を行っていきます。その際、pandas,scikit-learnという2つのPythonの外部ライブラリを使います。この2つのライブラリを利用しながら、Pythonでデータ処理と機械学習を実行していきます。
第4章以降は、この2つのpandas,scikit-learnライブラリを使って、Pythonで機械学習を学習、実践していきます。
pandasで元となるデータを読み込み、そのデータの前処理をして、scikit-learnで機械学習を行ったり、評価するという流れです。
ですのでこの本は、pandas,scikit-learnの使い方を学ぶための本と言えると思います。
第5章~8章は、pandas、scikit-learnを使って、テストデータを使いながらデータ操作や分析、機械学習を行っていきます。章が進むにつれて、扱うデータが複雑になってきたり、pandas、scikit-learnの様々な使い方を学んでいくという感じです。
第5章は、scikit-learnによる決定木モデル(フローチャート)分析をして、題材として花のアヤメの判別を行います。
第6章は、scikit-learnで回帰分析のモデルを作成して、題材として映画の興行収入の予測を行います。
第8章は、重回帰分析により、題材としてある都市データから住宅価格平均を予測します。
第10章は、主にpandasを使った様々なデータの読み込みや前処理に絞って説明しています。
複数のデータファイルを読み込んで(CSVファイルだけでなくJSONファイル)、前処理としてデータの結合(内部結合、外部結合)を行ったりしています。データの結合は、簡単なDBのSQLみたいなものです。
第11章、12章は、機械学習の"教師あり学習"という学習方法の中で、代表的な手法をPythonで実践しながら紹介しています。
第11章ではリッジ回帰、ラッソ回帰、回帰木、第12章ではロジスティック回帰、ランダムフォレスト、アダブーストについて説明しています。
第14章、15章は、機械学習の"教師なし学習"という学習方法の中で、代表的な手法をPythonで実践しながら紹介しています。
第14章では扱うデータ(元データ)の次元削減について、第15章では様々なデータをグループ化するデータのクラスタリングについて説明しています(クラスタリングの中でも、k-means法という手法について)
第16章は、機械学習の世界について読み物的な話です。機械学習が進化して実用化していくと、数値データだけでなく、画像や文章や音声の機械学習についての世界があったり、反対に、データを生み出すAIも生まれるくるというちょっとした話です。
最初にも書きましたが、pandas、scikit-learnを利用したPythonの機械学習のプログラミング入門書です。
専門的な用語や初めて出てくる知識についても、図解や会話形式で丁寧に説明されていて非常に理解しやすいので、機械学習・AIや、データサイエンティストなどのITエンジニアを目指している方にとっては、とっかかりの一冊になる良い本だと思います。
Python関連ページのサイトマップ
(macOS)pyenvとPython3.9をインストールする
venvでPythonの仮想環境を試してみる