GitHubの宝の山!Microsoft公式の「データサイエンス10週間コース」を徹底解説
microsoft/Data-Science-For-Beginners
準備はいいかな?それじゃあ、データサイエンスの体操、はじめるよー!イチ、ニ!イチ、ニ!
「データサイエンスって、数学ばっかりで難しそう……」って思ってるお友達! この教材はね、エンジニアにとって「最高の地図」なんだ!
「コードを書く」だけじゃない!
ただの文法解説じゃなくて、「なぜこのデータが必要なのか?」というビジネスの視点も学べるんだ。
10週間でマスター!
20個のレッスンに分かれているから、仕事が終わった後の「ちょっとした時間」でコツコツ進められるんだね。
完全無料!
これ、GitHubで公開されているから、誰でもタダで見放題!太っ腹だねぇ!
まずは、自分のパソコンにこの「宝の山」を持ってこよう! ターミナルを開いて、元気よくこの呪文(コマンド)を唱えてみて!
# リポジトリをクローン(手元にコピー)するよ!
git clone https://github.com/microsoft/Data-Science-For-Beginners.git
# 中に入ってみよう!
cd Data-Science-For-Beginners
中にはたくさんの「Jupyter Notebook(.ipynb)」が入っているんだ。 VS Codeを使っているお友達なら、拡張機能を入れるだけで、すぐにコードを動かしながらお勉強を始められるぞ!
データサイエンスの基本中の基本、Pandas(パンダス)君の登場だ! エンジニアなら、JSONやCSVを扱うのは得意だよね? Pandasはそれを「超・強力」にしたものなんだ。
レッスンの中でよく使う、データの読み込みと集計の例を見てみよう!
import pandas as pd
# 1. データを読み込むぞ!(ここではお菓子の売上データがあるとするね)
data = {
'商品名': ['チョコ', 'クッキー', 'チョコ', 'ガム', 'クッキー'],
'売上': [100, 150, 120, 50, 180]
}
df = pd.DataFrame(data)
# 2. 「チョコ」だけのデータを見たいな〜っていう時はこれ!
choco_sales = df[df['商品名'] == 'チョコ']
print("チョコの売上はこちら!\n", choco_sales)
# 3. 商品ごとの合計をサクッと計算!
summary = df.groupby('商品名')['売上'].sum()
print("\n商品ごとの合計だよ!\n", summary)
この教材をやり遂げると、君はこんな「スーパーエンジニア」になれるぞ!
「勘」に頼らない開発ができる! ログデータを分析して、「ユーザーはここで詰まってるんだな!」という証拠を見つけられるようになるんだ。
機械学習の基礎が身につく! 「AIって何?」という状態から、「あぁ、回帰分析のことね!」ってドヤ顔(?)できるようになるぞ。
可視化のプロになれる! グラフを使って、チームのみんなに「僕たちのアプリはこんなに成長してるよ!」って分かりやすく説明できるようになるんだ!
ふぅ〜、お疲れ様! データサイエンスは、一歩ずつ進めば怖くないんだ。 まずはリポジトリを覗いて、1日1レッスン、楽しんでみてね!
「データは友達! 怖くないよ!」
また次回、一緒に楽しく学ぼうね!バイバーイ!