আপনি কি Bayesian স্প্যাম ফিল্টার সম্পর্কে জানতে প্রয়োজন

by হেইঞ্জ Tschabitscher

পরিসংখ্যান কীভাবে আপনার ইনবক্সকে পরিষ্কার রাখতে সহায়তা করে তা খুঁজে বের করুন

বেইসিয়ান স্প্যাম ফিল্টারগুলি এর বিষয়বস্তুগুলির উপর ভিত্তি করে একটি স্প্যাম হচ্ছে এমন একটি বার্তাের সম্ভাব্যতার হিসাব করে। সাধারণ কন্টেন্ট-ভিত্তিক ফিল্টারগুলির তুলনায়, বেইসিয়ান স্প্যাম ফিল্টার স্প্যাম থেকে এবং ভাল মেইল থেকে শিখছে, যার ফলে একটি খুব শক্তিশালী, অভিযোজন এবং কার্যকর অ্যান্টি-স্প্যাম পদ্ধতির ফলে, যেকোনো ভাল, কোনও মিথ্যা ইতিবাচক ফলাফল পাওয়া যায় না।

আপনি কিভাবে জাঙ্ক ইমেইল সনাক্ত?

আপনি স্প্যাম সনাক্ত কিভাবে সম্পর্কে চিন্তা করুন। একটি দ্রুত নজরে প্রায়ই যথেষ্ট হয়। আপনি জানেন যে স্প্যাম কেমন দেখাচ্ছে, এবং আপনি কি ভাল মেইল দেখতে জানেন।

ভালো মেলের মতো স্প্যাম অনুসন্ধানের সম্ভাবনা প্রায় ... শূন্য।

বিষয়বস্তু-ভিত্তিক ফিল্টারগুলি ক্রমশ না করা

স্বয়ংক্রিয় স্প্যাম ফিল্টার ভালো কাজ করা হলে এটি খুব ভাল হবে না?

সামগ্রীভিত্তিক স্প্যাম ফিল্টারগুলি স্কোরিং কেবলমাত্র এটির জন্য চেষ্টা করুন। তারা স্প্যামের সাধারণ শব্দ এবং অন্যান্য বৈশিষ্ট্যের সন্ধান করে। প্রতিটি চরিত্রগত উপাদানকে একটি স্কোর প্রদান করা হয় এবং পুরো বার্তাটির জন্য একটি স্প্যাম স্কোর ব্যক্তিগত স্কোর থেকে গণনা করা হয়। কিছু স্কোরিং ফিল্টারগুলি বৈধ মেইলের বৈশিষ্ট্যগুলির জন্যও অনুসন্ধান করে, একটি বার্তা এর চূড়ান্ত স্কোর কমিয়ে দেয়।

স্কোরিং ফিল্টার পদ্ধতি কাজ করে, কিন্তু এর মধ্যে বেশ কয়েকটি ত্রুটি রয়েছে:

বৈশিষ্ট্য তালিকাটি স্প্যাম (এবং ভাল মেইল) থেকে ফিল্টার এর ইঞ্জিনিয়ারদের জন্য উপলব্ধ নির্মিত হয়। যে কেউ স্প্যাম স্পর্শ করতে পারে এমন একটি ভাল ধারণা পেতে, ইমেল ইমেল ঠিকানাগুলিতে শত শত ইমেল সংগ্রহ করা আবশ্যক। এটি ফিল্টারের দক্ষতাকে দুর্বল করে দেয়, বিশেষত কারণ ভাল মেলের বৈশিষ্ট্য প্রত্যেক ব্যক্তির জন্য আলাদা হবে , কিন্তু এটি বিবেচনা করা হয় না।
চেহারা জন্য বৈশিষ্ট্য আরো বা কম পাথর সেট হয় । যদি স্প্যামাররা (তাদের স্প্যাম ফিল্টারগুলিতে ভালো মেলের মত করে) অ্যাডাপ্টর করার প্রচেষ্টা করে, তবে ফিল্টারিংয়ের বৈশিষ্ট্যগুলিকে ম্যানুয়ালভাবে আলাদা করা উচিত - এমনকি একটি বড় প্রচেষ্টাও।
প্রতিটি শব্দ নির্ধারিত স্কোর সম্ভবত একটি ভাল অনুমান উপর ভিত্তি করে, কিন্তু এটি এখনও নির্বিচারে হয়। এবং বৈশিষ্ট্য তালিকা মত, এটি স্প্যাম পরিবর্তনের বিশ্বের সাধারণভাবে বা একটি পৃথক ব্যবহারকারীর প্রয়োজনগুলি না অভিযোজিত হয়।

Bayesian স্প্যাম ফিল্টার নিজেকে টিয়কর, ভাল এবং উন্নত হচ্ছে

Bayesian স্প্যাম ফিল্টারগুলি একটি ধরনের স্কোরিং কন্টেন্ট-ভিত্তিক ফিল্টারগুলিও। তাদের দৃষ্টিভঙ্গি সহজ স্কোরিং ফিল্টারের সমস্যাগুলি থেকে দূরে থাকে, যদিও, এবং এটি তাই মৌলিকভাবে। যেহেতু স্কোরিং ফিল্টারের দুর্বলতা ম্যানুয়ালি বৈশিষ্ট্যগুলির তালিকা এবং তাদের স্কোরের মধ্যে রয়েছে, এই তালিকাটি বাদ দেওয়া হয়েছে।

পরিবর্তে, Bayesian স্প্যাম ফিল্টার তালিকা নিজেই নির্মাণ। আদর্শভাবে, আপনি এমন ইমেলগুলির (বড়) গোষ্ঠীর সাথে শুরু করেন যা আপনি স্প্যাম হিসাবে শ্রেণীবদ্ধ করেছেন এবং অন্য আরেকটি ভাল মেলের মাধ্যমে। ফিল্টার উভয় দিকে তাকান এবং বৈধ মেল এবং স্প্যামের বিশ্লেষণ করে স্প্যামে উপস্থিত বিভিন্ন বৈশিষ্ট্যগুলির সম্ভাব্যতা এবং উত্তম মেলের সংখ্যা গণনা করতে।

কিভাবে একটি Bayesian স্প্যাম ফিল্টার একটি ইমেল পরীক্ষা

একটি Bayesian স্প্যাম ফিল্টার বৈশিষ্ট্য হতে পারে:

বার্তা, শরীরের শব্দ অবশ্যই, এবং
তার হেডার (প্রেরক এবং বার্তা পাথ , উদাহরণস্বরূপ!), কিন্তু এছাড়াও
অন্যান্য দিক যেমন এইচটিএমএল / সিএসএস কোড (যেমন রং এবং অন্যান্য বিন্যাস) বা এমনকি
শব্দ জোড়া, বাক্যাংশ এবং
মেটা তথ্য (উদাহরণস্বরূপ, যেখানে একটি নির্দিষ্ট ফ্রেজ প্রদর্শিত হয়)।

উদাহরণস্বরূপ, "কার্টিসিয়ান" শব্দটি যদি স্প্যামে প্রদর্শিত না হয় তবে আপনি যে বৈধ ইমেল পেতে পারেন তা প্রায়ই, "কার্টিসিয়ান" স্প্যামটি শনাক্ত করে যে শূন্যের কাছাকাছি "টোনার", অন্যদিকে, একচেটিয়াভাবে এবং প্রায়ই স্প্যামে প্রদর্শিত হয়। "টোনার" এর স্প্যাম পাওয়া যায় এমন একটি খুব উচ্চ সম্ভাবনা রয়েছে, 1 (100%) নীচে নয়।

যখন একটি নতুন বার্তা আসে, এটি Bayesian স্প্যাম ফিল্টার দ্বারা বিশ্লেষণ করা হয়, এবং সম্পূর্ণ বার্তা স্প্যাম এর সম্ভাব্যতা পৃথক বৈশিষ্ট্য ব্যবহার করে গণনা করা হয়।

একটি বার্তা অনুমান করুন "কার্টিসিয়ান" এবং "টোনার" উভয় ধারণ করে। এই শব্দগুলি থেকে একা এটি স্প্যাম বা legit ইমেল আছে কিনা তা এখনো পরিষ্কার নয় অন্যান্য বৈশিষ্ট্যগুলি (সম্ভবতঃ এবং সম্ভবতঃ) একটি সম্ভাব্যতা নির্দেশ করে যা ফিল্টারকে স্প্যাম বা ভাল মেল হিসাবে বার্তা শ্রেণীভুক্ত করতে দেয়।

Bayesian স্প্যাম ফিল্টার স্বয়ংক্রিয়ভাবে জানতে পারেন

এখন যে আমাদের একটি শ্রেণীবিভাগ আছে, বার্তাটি আরও ফিল্টার নিজেকে আরও প্রশিক্ষণের জন্য ব্যবহার করা যেতে পারে। এই ক্ষেত্রে, "কার্টিসিয়ান" এর সম্ভাব্যতাটি ভাল মেলের নির্দেশিত হয় (যদি "কার্টিসিয়ান" এবং "টোনার" উভয় স্প্যাম স্পষ্ট বলে মনে করা হয় তবে বার্তাটি), অথবা "টোনর" এর সম্ভাব্যতা স্প্যামকে পুনর্বিবেচনা করতে হবে।

এই অটো-অ্যাডাপ্টিভ টেকনিক ব্যবহার করে Bayesian ফিল্টারগুলি নিজেদের এবং ব্যবহারকারীর সিদ্ধান্তগুলি থেকে শিখতে পারে (যদি সে নিজে ফিল্টার দ্বারা ভুল সংশোধন করে)। Bayesian ফিল্টারের সংযোজনও নিশ্চিত করে যে তারা পৃথক ইমেল ব্যবহারকারীর জন্য সবচেয়ে কার্যকর। যদিও বেশীরভাগ লোকের স্প্যামের অনুরূপ বৈশিষ্ট্য থাকতে পারে, বৈধ মেইলটি সবার জন্য আলাদা আলাদা।

স্প্যামাররা কিভাবে বেইসিয়ান ফিল্টারগুলি পান?

বৈধ মেলের বৈশিষ্ট্য যেমন স্প্যাম হিসাবে বেইসিয়ান স্প্যাম ফিল্টারিং প্রক্রিয়ার জন্য গুরুত্বপূর্ণ। যদি ফিল্টারগুলি প্রত্যেক ব্যবহারকারীর জন্য বিশেষভাবে প্রশিক্ষণপ্রাপ্ত হয় তবে স্প্যামারদের কাছে স্প্যাম ফিল্টারের (এমনকি অধিকাংশ লোকের) স্প্যাম ফিল্টারের মতো একটি কঠিন সময় থাকবে এবং ফিল্টারগুলি প্রায় সব স্প্যামারদের ব্যবহার করার চেষ্টা করবে।

স্প্যামাররা শুধুমাত্র ভাল প্রশিক্ষিত বেইসিয়ান ফিল্টারগুলি করে থাকলে তারা তাদের স্প্যাম বার্তাগুলি সাধারণ ইমেলের মতই পুরোপুরি দেখতে পাবে।

স্প্যামাররা সাধারণত এই ধরনের সাধারণ ইমেলগুলি পাঠান না। আসুন আমরা এই অনুমান করি কারণ এই ইমেলগুলি জাঙ্ক ইমেল হিসাবে কাজ করে না। সুতরাং, সম্ভাবনা যখন তারা স্বাভাবিক, বিরক্তিকর ইমেল এটি করা হবে না এটি স্প্যাম ফিল্টার অতীত past করার একমাত্র উপায়।

যদি স্প্যামাররা বেশিরভাগ সাধারণ-সুস্পষ্ট ইমেলগুলিতে স্যুইচ করে তবে আমরা আমাদের ইনবক্সে অনেকগুলি স্প্যাম দেখতে পাব, এবং ই-মেইল হতাশার মতো হতে পারে যেমনটি প্রাক-বেইসিয়ান দিনে (বা এমনকি খারাপ)। এটি বেশিরভাগ স্প্যামের জন্য বাজারকে ধ্বংস করে দেবে, যদিও, এবং এইভাবে দীর্ঘদিন ধরে চলবে না

দৃঢ় সূচক একটি বেইসিয়ান স্প্যাম ফিল্টার এর অ্যাকিলিস 'হতে পারে গোড়ালি

স্প্যামাররা Bayesian ফিল্টারের মাধ্যমে তাদের স্বাভাবিক কন্টেন্টের মাধ্যমে তাদের কাজ কাজ করার জন্য একটি ব্যতিক্রম অনুভূত হতে পারে। এটি Bayesian পরিসংখ্যান প্রকৃতির যে এক শব্দ বা চরিত্রগত যে খুব ভাল মেইল প্রদর্শিত হয় খুব গুরুত্বপূর্ণ হিসাবে স্প্যাম মত ফিল্টার দ্বারা হিসাবে হ্যাম হিসাবে রেট করা থেকে কোন বার্তা চালু হতে পারে।

যদি স্প্যামাররা আপনার নিশ্চিত আগুনের সুনির্দিষ্ট মেল শব্দগুলি নির্ধারণ করতে একটি উপায় খুঁজে পায়- আপনি যে বার্তাগুলি খুলেছেন তা দেখতে এইচটিএমএল রিটার্ন রিসিট ব্যবহার করে - উদাহরণস্বরূপ, তারা তাদের মধ্যে একজনকে জাঙ্ক মেলে অন্তর্ভুক্ত করতে পারে এবং একটি সুপ্রশিক্ষকের মাধ্যমেও পৌঁছতে পারে। বেইসিয়ান ফিল্টার প্রশিক্ষিত

জন গ্রাহাম-কামিং দুটি Bayesian ফিল্টার একে অপরের বিরুদ্ধে কাজ করে এই চেষ্টা করেছে, "খারাপ" এক যে adapting বার্তা যা "ভাল" ফিল্টার মাধ্যমে পাওয়া পাওয়া যায়। তিনি বলেন, এটি কাজ করে, যদিও প্রক্রিয়াটি সময় ব্যয়কারী এবং জটিল। আমরা মনে করি না আমরা এই ঘটনার অনেক দেখতে হবে, কমপক্ষে একটি বড় স্কেলে, এবং ব্যক্তি 'ইমেইল বৈশিষ্ট্যগুলি অনুযায়ী নয়। স্প্যামাররা (প্রতিষ্ঠানের জন্য কিছু কীওয়ার্ডগুলি) (পরিবর্তে আইবিএমের কিছু লোকের জন্য "আলমাডেন" এরকম কিছু) এর পরিবর্তে (চেষ্টা করতে পারেন)?

সাধারণত, স্প্যাম সবসময় (উল্লেখযোগ্যভাবে) নিয়মিত মেইল থেকে পৃথক হবে বা এটি স্প্যাম হবে না, যদিও।

নীচের লাইন: বেইসিয়ান ফিল্টারিং এর শক্তি তার দুর্বলতা হতে পারে

Bayesian স্প্যাম ফিল্টার সামগ্রী ভিত্তিক ফিল্টারগুলি যা:

বিশেষভাবে ব্যক্তিগত ইমেল ব্যবহারকারীদের স্প্যাম এবং ভাল মেল সনাক্ত করতে প্রশিক্ষণ দেওয়া হয় , স্প্যামারদের জন্য উপযোগী করার জন্য তাদের অত্যন্ত কার্যকরী এবং কঠিন করে তোলে।
ক্রমাগত এবং অনেক প্রচেষ্টা বা ম্যানুয়াল বিশ্লেষণ ছাড়া spammers 'সর্বশেষ কৌশলগুলি মানিয়ে নিতে পারে।
ব্যক্তিগত ব্যবহারকারীর ভাল মেলকে অ্যাকাউন্টে নিয়ে যান এবং মিথ্যা ধনাত্মকগুলির খুব কম হারে থাকে ।
দুর্ভাগ্যবশত, যদি এটি বেইসিয়ান এন্টি স্প্যাম ফিল্টারে অন্ধ বিশ্বাস করে, তবে এটি মাঝে মাঝে ভুলকে আরও গুরুতর রূপে প্রদান করে । মিথ্যা নেগেটিভের বিপরীত প্রভাব (স্প্যাম যা নিয়মিত মেলের মতোই দেখায়) ব্যবহারকারীদের বিরক্ত এবং হতাশার সম্ভাবনা রয়েছে।