آموزش رایگان ماشین لرنینگ جلسه 3

ارسال شده توسط

1404-02-20

On 1403-09-03

چرخه حیات یادگیری ماشین

فرض کنید میخوایم یه پروژه یادگیری ماشین رو از صفر اجرا کنیم. باید چه مراحلی رو طی کنیم تا یه مدل بسازیم؟ در واقع مراحلی که هر مهندس ماشین لرنینگ انجام میده تا یک پروژه از صفر به صد برسه رو باید بدونیم. حالا برای اینکه یکم باکلاس ترش کنیم اسم چرخه حیات یادگیری ماشین میذاریم روی این فرآیند و در زیر اونو توضیح میدیم.

چرخه حیات یادگیری ماشین شامل هفت مرحله اصلی ه که در زیر آوردمش:

جمع‌آوری داده‌ها یا Data Gathering
آماده‌سازی داده‌ها یا Data Preparation
تمیز کردن داده‌ها یا Data Wrangling
تحلیل داده‌ها یا Data Analysis
آموزش مدل یا Train the Model
آزمایش مدل یا Test the Model
پیاده سازی یا Deployment

مهم‌ترین نکته در کل فرآیند، اینه که اول مسئله رو خوب درک کنیم و دوم هدف مسئله رو بشناسیم.

در فرآیند کامل چرخه حیات، برای حل یک مسئله، در آخر قراره یک سیستم یادگیری ماشین به نام “مدل” ایجاد ‌کنیم که این مدل با ارائه “آموزش” ایجاد می‌شه. اما برای آموزش یه مدل، به “داده” نیاز داریم، بنابراین چرخه حیات با جمع‌آوری داده‌ها شروع می‌شه.

حالا بیایم مراحل بالا رو یکی یکی توضیح مختصر بدیم تا در جلسات آینده با جزئیات پیش ببریم.

جمع‌آوری داده‌ها

جمع‌آوری داده‌ها اولین مرحله از اجرای هر پروژه ماشین لرنینگ ه. اصلا تا داده ای نداشته باشیم چجور میخوایم به ماشین یاد بدیم؟

ما باید داده ها رو از منابع مختلف شناسایی کنیم، مثلا از فایل‌ها، پایگاه‌های داده، اینترنت، دستگاه‌های موبایل یا داده هایی که خودمون دستی تهیه کردیم و به شکل جدول درآوردیم، جمع‌آوری بشن. مثلا من میخوام یه مدل بسازم برای پیش بینی ارزش سهام شرکت اپل، و پیش بینی کنم در آینده چه روندی داشته باشه؛ برای اینکار می تونم وارد وبسایت هایی بشم که داده های مربوط به ارزش سهام اپل رو تو یک سال اخیر جمع آوری کردن، و اون فایل های مربوطه رو دانلود کنم.

مقدار و کیفیت داده‌های جمع‌آوری شده، کارآیی خروجی را تعیین می‌کنه، یعنی هرچه داده‌ها بیشتر و با کیفیت تر باشند، پیش‌بینی دقیق‌تر خواهد بود.

با انجام موارد بالا، مجموعه داده ای که جمع آوری کردیم رو بهش دیتاست (Dataset) میگیم که قراره توی مراحل بعدی ازش استفاده کنیم.

حالا برای مایی که تازه اول راه هستیم و میخوایم یه سری دیتاست داشته باشیم و روی اونها مدل بزنیم، تا حسابی این تکنولوژی رو تمرین کنیم و یاد بگیریم، چیکار کنیم؟! جواب اینه که یه سری وبسایت ها کارشون فقط جمع آوری دیتاست هستش، و دیتاست های فوق العاده ای هم تهیه کردند که بتونیم ازونا استفاده کنیم. یکی از این وبسایت ها اسمش کَگِل هست. اگه کنجکاوید یه سر به این وبسایت بزنین www.kaggle.com. البته که توی یه جلسه کاملا مجزا نحوه دانلود دیتاست های خیلی تمیز رو بهتون میگم. فعلا با مفهموم و اهمیت جمع آوری دیتا و تشکیل یه دیتاست آشنا شدیم.

آماده‌سازی داده‌ها

بعد از جمع‌آوری داده‌ها، نیاز ه که اونا رو برای مراحل بعدی آماده کنیم. آماده‌سازی داده‌ها مرحله‌ای ه که در اون داده‌ها رو در مکان مناسبی قرار می‌دیم، تا در مرحله آموزش آماده می‌کنیم. در واقع در این مرحله، ابتدا تمام داده‌ها رو کنار هم قرار می‌دیم و بعدش ترتیب داده‌ها رو به صورت تصادفی تغییر می‌دیم. باید ویژگی ها و فرمت داده ها رو مشخص کنیم که مثلا در یک فایل اکسل قرار بگیره یا پسوند csv. داشته باشه و … .اگه لازمه در ستون هایی ویژگی ها کنار هم قرار بگیرن، و دیتاست خام مهیا بشه برای دست کاری و تمیزکاری (مرحله بعد).

تمیز کردن داده‌ها

تمیز کردن داده‌ها فرایندی ه که داده ها رو پاکسازی می کنیم و داده های خام رو تبدیل به یک فرمت قابل استفاده می کنیم. درواقع ضروری نیست تمام داده‌هایی که جمع‌آوری کردیم همیشه به کارمون بیاد، چون برخی داده‌ها ممکن ه اصلا مفید نباشن. در کاربردهای دنیای واقعی، داده‌های جمع‌آوری‌شده ممکن ه مشکلات مختلفی داشته باشند، مثلا:

– مقادیر از دست رفته یا Missing Values: به طور مثال در جمع آوری داده از اطلاعات افراد مورد آزمایش، سن یه فرد رو فراموش کردیم توی دیتاست وارد کنیم یا اطلاعی از سنش نداشتیم. به این مقدار missing values می گیم. (روش مقابله و برخورد با اینا رو سر جای خودش می گیم)

– داده‌های تکراری یا Duplicate Data: همونطور که اسمش مشخصه شاید در جمع آوری دیتا، دو نمونه داشته باشیم که عین هم باشن و خب یکیش رو باید پاک کنیم بندازیم دور!

– داده‌های نامعتبر یا Invalid Data: مثلا توی دیتاست، در ستون مربوط به سن یه حرف انگلیسی نوشتیم، به جای عددی که مشخص کننده سن هست. بهش می گن داده ی نامعتبر که باید یه بلایی سرش بیاریم! (اینم به وقتش میگم چه برخوردی باهاش کنیم)

– نویز یا Noise: که اینم فک کنم اسمش مشخصه.

ما وقتی به موارد بالا برخورد کنیم باید از تکنیک‌های مختلف فیلتر کردن برای پاکسازی داده‌ها استفاده کنیم. چون تشخیص و حذف مشکلات فوق الزامی ه، و اگه برطرف نشه میتونه به طور منفی روی کیفیت نتیجه تأثیر بذاره.

تحلیل داده‌ها

تا الان داده‌های تمیز و آماده ای داریم، که باید به مرحله تحلیل داده‌ها منتقل بشن. توی این مرحله باید تعیین کنیم که چه تکنیکی از روش های یادگیری ماشین لازمه. خب این یعنی چی واقعا؟:D . باید تحلیل کنیم که داده های ما از چه نوعی هستند و چه الگوریتیمی از ماشین لرنینگ باهاش سازگاره! مثلا مسئله ما از نوع طبقه بندی، رگرسیون، خوشه بندی یا … هستش؟ (اصلا نگران این موارد نباشید که نمیدونید چیه! چون اصل ماشین لرنینگ، یادگیری همین عباراتی بود که الان بهشون اشاره کردم؛ وقتی شما می تونید ادعا کنید ماشین لرنینگ بلدید که همینارو یاد بگیرید. پس منتظر باشید که اصل داستانون با آموزش همین موارد شروع میشه و چیزایی که الان میگم در حد شوخیه)

بنابراین، در این مرحله، داده‌ها رو می‌گیریم و الگوریتم‌های یادگیری ماشین رو برای ساخت مدل استفاده می‌کنیم.

آموزش مدل

مرحله بعدی آموزش مدل ه. برای آموزش مدل از دیتاست ها و الگوریتم‌های مختلف یادگیری ماشین استفاده می‌کنیم. هدف از آموزش یک مدل اینه که ماشین بتونه الگوها و قوانین و ویژگی های مختلفی که توی دیتا مخفی شده، رو درک کنه و بعد از فهمیدنشون بتونه به جای ما تصمیم بگیره.

اینکه چه اتفاق واقعی تو این مرحله میفته، رو برای هر الگوریتم در آینده جداگانه بررسی می کنیم.

امیدوارم مفهومش جا افتاده باشه. این شد: دیتاست رو به الگوریتم ها میخورونیم تا خودش پردازش کنه (می خورونیم یعنی واردش می کنیم یا تغذیه ش می کنیم یا…)

آزمایش مدل

بعد از اینکه الگوریتم یادگیری ماشین بر روی یک دیتاست آموزش دید و یاد گرفت، و اون مدل خیلی خوبمون ساخته شد، باید این مدل رو آزمایش کنیم ببینیم اصلا مدلِ به درد بخوری هست یا نه. در این مرحله، یه سری از دیتاهای دنیای واقعی رو که از قبل کنار گذاشتیم، به مدلی که ساخته شده می دیم، و بررسی می کنیم ببینیم دقت مدل چقده. در واقع باید درصد دقت مدل رو ارزیابی کنیم. اگه دیدیم دقتش کمه بندازیمش دور و از الگوریتم های دیگه استفاده کنیم، دوباره مدل رو آموزش بدیم تا به نتیجه خوب برسیم خلاصه.

پیاده سازی

آخرین مرحله از چرخه حیات یادگیری ماشین، پیاده سازی مدلمون در سیستم دنیای واقعی ه. اگر مدلِ آماده‌شده به طور دقیق و با سرعتِ قابل قبول، نتیجه‌ای که نیاز داریم رو تولید کنه، مدل را در سیستم واقعی پیاده می‌کنیم. مرحله Deployment مشابه تهیه گزارش نهایی برای یه پروژه س.

خب اینم از این جلسه که تمام شد. می دونید که تازه اول راه هستیم و این مفاهیم سنگ بنای یادگیری ماشین هست. باید خوب درک کنید ما قراره چیکار کنیم، و اگه اینو بدونیم، در ادامه مسیر کارایی که انجام میدیم برامون گیج کننده نیست و فرآیند یادگیریمون چندین برابر میشه.

برای یادگیری و دسترسی بهتر، فایل پی دی اف جلسه سوم رو دانلود کنید.

ادامه دارد…

10 فکر در مورد “ آموزش رایگان ماشین لرنینگ جلسه 3 ”

hmd_dsht67 گفت:

1403-09-18 در 6:17 ب.ظ

خیلی خوب داری میری جلو سبک و لذت بخش عافرین ادامه بده

پاسخ
1. cometomachine گفت:
  
  1403-09-19 در 10:15 ق.ظ
  
  سپاس از همراهی شما
  
  پاسخ
hossein dehdarzadeh گفت:

1403-10-15 در 9:32 ق.ظ

درود دکتر جان ،واقعا جذاب هست و من دارم با هیجان عجیبی مطالب رو میخونم

پاسخ
1. cometomachine گفت:
  
  1403-10-15 در 4:50 ب.ظ
  
  درود بر مهندس عزیز. انگیزه شما باعث میشه با انرژی بیشتری محتوای مفیدی تولید کنم.
  
  پاسخ
حامد گفت:

1404-01-29 در 7:28 ب.ظ

درود عالی و مفهومی با زبان قابل درک آموزش میدین توی الگوریتم ها ماشین لرنینگ هم اینجوری ادامه بدی به جرات میتونم بگم تکی تک

پاسخ
1. cometomachine گفت:
  
  1404-01-29 در 10:11 ب.ظ
  
  درود بر شما. و همچین پیام هایی چقدر بهم انرژی بیشتر میده. ممنون از نگاهتون
  
  پاسخ
میلاد گفت:

1404-03-02 در 10:25 ق.ظ

بسیار عالی

پاسخ
1. مرتضی علیزاده گفت:
  
  1404-03-12 در 10:12 ق.ظ
  
  خوشحالم برات مفید بوده
  
  پاسخ
حسین گفت:

1404-08-15 در 9:40 ق.ظ

عاااااااااااااااااااااااااااااااااااالی بود.

پاسخ
1. مرتضی علیزاده گفت:
  
  1404-09-26 در 2:05 ب.ظ
  
  خوشحالم مفید بوده
  
  پاسخ

آموزش رایگان ماشین لرنینگ جلسه 3

چرخه حیات یادگیری ماشین

جمع‌آوری داده‌ها

آماده‌سازی داده‌ها

تمیز کردن داده‌ها

تحلیل داده‌ها

آموزش مدل

آزمایش مدل

پیاده سازی

دیدگاهتان را بنویسید لغو پاسخ

درباره ما

دسترسی سریع

شبکه های اجتماعی

نماد ها