ডেটা মাইনিং শ্রেণীবিভাগ

শ্রেণীবিভাগ একটি ডেটা মাইনিং টেকনিক যা আরো সঠিক ভবিষ্যদ্বাণী এবং বিশ্লেষণে সাহায্য করার জন্য তথ্য সংগ্রহের বিভাগগুলি নির্ধারণ করে। কখনও কখনও একটি ডিসিশন ট্রি নামক নামেও পরিচিত, শ্রেণীবদ্ধকরণটি বেশ বড় ডেসেটস কার্যকর করার বিশ্লেষণ করতে কার্যকর বিভিন্ন পদ্ধতি।

কেন শ্রেণীকরণ?

খুব বড় ডেটাবেস আজকের বিশ্বের "বিগ ডেটা" এর আদর্শ হয়ে উঠছে। একাধিক terabytes তথ্য সঙ্গে একটি ডাটাবেস কল্পনা - একটি terabyte তথ্য এক ট্রিলিয়ন বাইট হয়।

ফেসবুক একমাত্র 600 টেরাবাইট নতুন ডেটা প্রতি একক দিন (যেমন ২014 সালের হিসাবে, এই চশমাটি প্রতিবেদন করে শেষ সময়) crunches। বড় তথ্য প্রধান চ্যালেঞ্জ হল কিভাবে এটা বোধ করতে।

এবং নিছক ভলিউম একমাত্র সমস্যা নয়: বড় তথ্যগুলি বিভিন্ন বৈষম্যহীন, অননুমোদিত এবং দ্রুত পরিবর্তনশীল। অডিও এবং ভিডিও ডেটা, সামাজিক মিডিয়া পোস্ট, 3D ডেটা বা ভূসম্পত্তিগত ডেটা বিবেচনা করুন। এই ধরনের তথ্য সহজে শ্রেণীভুক্ত বা সংগঠিত হয় না।

এই চ্যালেঞ্জ মোকাবেলা করার জন্য, দরকারী তথ্য আহরণের জন্য স্বয়ংক্রিয় পদ্ধতির একটি পরিসীমা উন্নত করা হয়েছে, তাদের মধ্যে শ্রেণীবিভাগ

কিভাবে কাজ করে বর্ণনা

টেক-কথা বলতে খুব বেশি দূরে সরে যাওয়ার বিপদ এ, ক্লাসিফিকেশন কিভাবে কাজ করে তা নিয়ে আলোচনা করা যাক। লক্ষ্য হচ্ছে শ্রেণীবিভাজন নিয়মগুলির একটি সেট তৈরি করা যা একটি প্রশ্নের উত্তর দেবে, সিদ্ধান্ত নেবে বা আচরণের ভবিষ্যদ্বাণী করবে। শুরু করার জন্য, প্রশিক্ষণের ডেটা একটি সেট তৈরি করা হয়েছে যা একটি নির্দিষ্ট বৈশিষ্ট্যগুলির পাশাপাশি সম্ভাব্য ফলাফলও রয়েছে।

ক্লাসিফিকেশন অ্যালগরিদমের কাজটি কীভাবে আবিষ্কার করা যায় তা কীভাবে সেটগুলির উপসংহারটি তার উপসংহারে পৌঁছেছে।

দৃশ্যতঃ সম্ভবত কোনও ক্রেডিট কার্ড সংস্থা কোনও ক্রেডিট কার্ড অফারটি পেতে পারে তা নির্ধারণের চেষ্টা করছে।

এই প্রশিক্ষণ তথ্য তার সেট হতে পারে:

প্রশিক্ষণ ডেটা
নাম বয়স লিঙ্গ বার্ষিক আয় ক্রেডিট কার্ড অফার
জন ডো 25 এম $ 39.500 না
জানি দই 56 এফ $ 125.000 হাঁ

"পূর্বসূরী" কলাম বয়স , লিঙ্গ এবং বার্ষিক আয় ক্রেডিট কার্ড অফারের "পূর্বসূরী অ্যাট্রিবিউট" মূল্য নির্ধারণ করে। একটি প্রশিক্ষণ সেট ইন, পূর্বাভাস অ্যাট্রিবিউট পরিচিত হয়। শ্রেণীবদ্ধকরণ অ্যালগরিদম তারপর কীভাবে ভবিষ্যদ্বাণী অ্যাট্রিবিউটের মান পৌঁছেছে তা নির্ধারণ করার চেষ্টা করে: পূর্বসূরিদের এবং সিদ্ধান্তের মধ্যে কোন সম্পর্ক বিদ্যমান? এটি ভবিষ্যদ্বাণী নিয়মের একটি সেট বিকাশ করবে, সাধারণত একটি IF / THEN বিবৃতি, উদাহরণস্বরূপ:

যদি (বয়স> 18 বা বয়স <75) এবং বার্ষিক আয়> 40,000 THEN ক্রেডিট কার্ড অফার = yes

স্পষ্টতই, এটি একটি সহজ উদাহরণ, এবং এখানে দেখানো দুটি রেকর্ডের চেয়ে আলগোরিদিমকে আরও বড় ডেটা স্যাম্পলিংয়ের প্রয়োজন হবে। উপরন্তু, ভবিষ্যদ্বাণী নিয়মগুলি আরও জটিল হতে পারে, বৈশিষ্ট্য বিবরণগুলি ক্যাপচার করার জন্য উপ-বিধি সহ।

পরবর্তী, অ্যালগরিদম বিশ্লেষণের একটি "পূর্বাভাস সেট" দেওয়া হয়, কিন্তু এই সেটটি পূর্বাভাসের অ্যাট্রিবিউট (বা সিদ্ধান্ত) এর অভাব রয়েছে:

পূর্বসূরী ডেটা
নাম বয়স লিঙ্গ বার্ষিক আয় ক্রেডিট কার্ড অফার
জ্যাক ফ্রস্ট 42 এম $ 88,000
মেরি মারে 16 এফ $ 0

এই পূর্বসুরীর তথ্য ভবিষ্যদ্বাণী নিয়মগুলির সঠিকতা অনুমান করার জন্য সহায়তা করে, এবং বিকাশকারীরা কার্যকর এবং কার্যকর পূর্বাভাসগুলি যতক্ষণ না অবলম্বন করে ততক্ষণ পর্যন্ত নিয়মগুলি গুঁড়িয়ে দেওয়া হয়

শ্রেণীবদ্ধের দিন দিন

শ্রেণীবিভাগ, এবং অন্যান্য ডেটা মাইনিং কৌশল, গ্রাহকদের হিসাবে আমাদের দিন দিন অভিজ্ঞতা অনেক পিছনে।

আবহাওয়ার পূর্বাভাসের কারণে দিনের বর্ষার, রৌদ্রোজ্জ্বল বা মেঘলা হবে কিনা তা জানাতে শ্রেণিবদ্ধ ব্যবহার করতে পারে। চিকিৎসা পেশা চিকিৎসা ফলাফল ভবিষ্যদ্বাণী করতে স্বাস্থ্য শর্তাবলী বিশ্লেষণ করতে পারে। ক্লাসিফিকেশন পদ্ধতির একটি ধরন, নৈশ বায়েশিয়ান, স্প্যাম ইমেলগুলি শ্রেণিবদ্ধ করার জন্য শর্তাধীন সম্ভাব্যতা ব্যবহার করে। জালিয়াতি সনাক্তকরণ থেকে পণ্য অফারগুলি, শ্রেণীবিভাগগুলি প্রতিদিনের বিশ্লেষণের পিছনে ডেটা বিশ্লেষণ করে এবং পূর্বাভাসগুলি উত্পাদন করে।