جزيره فناوري اطلاعات جزيره فناوري اطلاعات .

جزيره فناوري اطلاعات

مجموعه داده يا ديتاست در يادگيري ماشين چيست؟

يكي از مهمترين پارمترهاي كليدي براي تبديل شدن به يك دانشمند بزرگ داده | data scientist ، تمرين با انواع مختلف مجموعه داده | ديتاست مي باشد. اما به راحتي نمي توان يك مجموعه داده مناسب براي يك پروژه و نوع الگوريتم انتخابي يادگيري ماشين | ML انتخاب كرد، بنابراين در ادامه اين مبحث، به شما آموزش خواهيم داد كه از طريق چه منابعي مي توانيد به راحتي مجموعه داده هايي را مطابق با پروژه خود تهيه كنيد.

در دوره آموزشي جامع علم داده مدرس كاظم تقنديكي تمام A-Z علم داده (يادگيري ماشين، داده كاوي) را به شكل كاملاً عملي و با زباني ساده به شما آموزش مي دهد

قبل از ذكر منابع مجموعه داده‌هاي يادگيري ماشين، ابتدا مفهموم مجموعه‌ داده را مورد بحث قرار مي دهيم.

مجموعه داده | Dataset چيست؟

مجموعه داده | ديتاست، در واقع مجموعه اي از داده ها است كه در آن داده ها به ترتيبي مرتب شده اند. يك مجموعه داده مي تواند يك آرايه يا يك جدول از پايگاه داده باشد. جدول زير نمونه اي از يك مجموعه داده را نشان مي دهد كه شامل 6 سطر و چهار ستون يا ويژگي كشور، سن، حقوق و خريد مي باشد.

يك مجموعه داده را مي توان به عنوان يك جدول يا ماتريس پايگاه داده درك كرد كه در آن هر ستون در واقع يك متغير يا ويژگي ناميد. بيشترين نوع فايل پشتيباني شده براي مجموعه داده هاي جدولي "فايل جدا شده با كاما" يا CSV  است.

در دوره آموزشي جامع علم داده مدرس كاظم تقنديكي تمام A-Z علم داده (يادگيري ماشين، داده كاوي) را به شكل كاملاً عملي و با زباني ساده به شما آموزش مي دهد.

انواع داده ها در مجموعه داده

  • داده هاي عددي: مانند قيمت خانه، دما و غيره.
  • داده هاي طبقه بندي شده: مانند بله/خير، درست/نادرست، آبي/سبز و غيره.
  • داده‌هاي ترتيبي: اين داده‌ها شبيه به داده‌هاي طبقه‌بندي هستند، اما مي‌توانند بر اساس مقايسه اندازه‌گيري شوند. مانند مقطع تحصيلي كه شامل مقادير وزني (ديپلم، كارداني، كارشناسي، كارشناسي ارشد و دكترا مي باشد)

توجه: يك مجموعه داده دنياي واقعي داراي اندازه بزرگي است كه مديريت و پردازش آن در سطح اوليه دشوار است. بنابراين، براي تمرين الگوريتم‌هاي يادگيري ماشين، مي‌توانيم از هر مجموعه داده ساختگي استفاده كنيم.

نياز به مجموعه داده

براي كار با پروژه هاي يادگيري ماشين | machine learning، به حجم عظيمي از داده نياز داريم، زيرا بدون داده، نمي توان مدل هاي ML/AI را آموزش داد. جمع آوري و آماده سازي مجموعه داده | ديتاست يكي از مهم ترين بخش ها در هنگام ايجاد يك پروژه ML/AI است. اگر مجموعه داده به خوبي آماده و از قبل پردازش نشده باشد، فناوري به كار رفته در پشت هر پروژه ML نمي تواند به درستي كار كند و دقت خروجي كمتري خواهد داشت. در طول توسعه پروژه ML، توسعه دهندگان كاملاً به مجموعه داده ها متكي هستند. در ساخت برنامه هاي ML، مجموعه داده ها به دو بخش تقسيم مي شوند:

  • مجموعه داده هاي آموزشي : با استفاده از اين مجموعه داده مدل يادگيري ماشين | machine learning مورد نظر را آموزش مي دهيم.
  • مجموعه داده تست : با استفاده از اين مجموعه داده مدل يادگيري ماشين | ML آموزش ديده را مورد ارزيابي قرار مي دهيم.

توجه: مجموعه داده ها حجم بالايي دارند، بنابراين براي دانلود اين مجموعه داده ها بايد اينترنت پرسرعتي در رايانه خود داشته باشيد.

در دوره آموزشي جامع علم داده مدرس كاظم تقنديكي تمام A-Z علم داده (يادگيري ماشين، داده كاوي) را به شكل كاملاً عملي و با زباني ساده به شما آموزش مي دهد

بهترين منابع براي دانلود مجموعه داده

در ادامه منابعي معرفي مي شود كه مجموعه داده هاي آن به صورت رايگان براي عموم در دسترس مي باشد.

Kaggle Datasets

Kaggle يكي از بهترين منابع يا مخازن تهيه مجموعه داده براي دانشمندان داده و كاربردهاي يادگيري ماشين مي باشد. شما در اين سايت به آساني مي توانيد منابع مورد نظر را جست و جو، دانلود و حتي منتشر كنيد. همچنين در اين وب سايت شما مي توانيد با ساير دانشمندان داده در تحليل و پيش بيني داده ها رقابت كنيد.

مخزن يادگيري ماشين UCI

مخزن يادگيري ماشين UCI يكي از منابع عالي مجموعه داده هاي يادگيري ماشين براي كاربردهاي مختلف ( دسته بندي، رگرسيون، خوشه بندي و ... ) است كه از سال 1987، به طور گسترده توسط دانشجويان، اساتيد، محققان به عنوان منبع اصلي مجموعه داده هاي يادگيري ماشين استفاده شده است. از جمله مجموعه‌هاي داده محبوب آن عبارتند از مجموعه داده‌هاي Iris، مجموعه داده ارزيابي خودرو، مجموعه داده‌هاي دستي پوكر كه براي آموزش الگوريتم هاي مختلف يادگيري ماشين از آن استفاده مي شود.

مجموعه داده AWS

يكي ديگر از منابعي كه با استفاده از آن مي توانيم مجموعه داده هاي سفارشي خود را جست و جو، دانلود و منتشر كنيم عبارتند از سايت AWS. هر كسي مي‌تواند با استفاده از مجموع داده‌هاي به اشتراك گذاشته شده از طريق منابع  AWS، الگوريتم هاي مختلف يادگيري ماشين را بر روي مجموعه داده هاي مختلف پياده سازي كند.

موتور جستجوي مجموعه داده هاي گوگل

موتور جستجوي مجموعه داده هاي گوگل توسط گوگل در 5 سپتامبر 2018 راه اندازي شد. اين منبع به محققان اين امكان را مي دهد تا مجموعه داده هاي آنلاين را كه به صورت رايگان براي استفاده در دسترس هستند رابه منظور كاربردهاي مختلف يادگيري ماشين دانلود كنند.

مجموعه داده Scikit-Learn

Scikit-learn يك كتابخانه يادگيري ماشين براي زبان برنامه نويسي پايتون مي باشد كه علاوه بر ارائه الگوريتم هاي مختلف يادگير ماشين و پردازش امكان دسترسي به يكسري مجموعه داده را براي دانشمندان داده ممكن مي سازد.

در دوره آموزشي جامع علم داده مدرس كاظم تقنديكي تمام A-Z علم داده (يادگيري ماشين، داده كاوي) را به شكل كاملاً عملي و با زباني ساده به شما آموزش مي دهد.


برچسب: آموزش SQL،آموزش SQL Server،دوره SQL،دوره آموزشي SQL Server،آموزش اس كيو ال سرور،آموزش PLSQL،آموزش بانك اطلاعاتي،آموزش پايگاه داده SQL،،
امتیاز:
 
بازدید:
+ نوشته شده: ۱۹ فروردين ۱۴۰۲ساعت: ۱۱:۱۰:۱۴ توسط:محمد نصيري موضوع:

{COMMENTS}
ارسال نظر
نام :
ایمیل :
سایت :
آواتار :
پیام :
خصوصی :
کد امنیتی :