লিনাক্স ভয়েস স্টেটেস অফ স্টেটস

ভূমিকা

আমি নিবন্ধের জন্য গবেষণা অনেক সময় ব্যয় এবং প্রায়শই আমি ট্রেন স্টেশন বা যখন আউট এবং প্রায় সাধারণ হিসাবে হাঁটার সময় একটি নিবন্ধ জন্য বিষয় সম্পর্কে মনে করি।

একদিন সন্ধ্যায় আমার কাজ থেকে স্টেশনে 1.5 মাইল হাঁটার সময় আমি ভাবলাম "আমি কি বলতে চেয়েছি তা রেকর্ড করতে পারলে ভাল না হয় এবং তারপর এটি একটি টেক্সট ফাইলে স্বয়ংক্রিয়ভাবে লিপিবদ্ধ করে যা আমি পরে সম্পাদনা এবং ফরম্যাট করতে পারি" ।

লিনাক্সে সফ্টওয়্যার সফটওয়্যার ব্যবহার করে মাইক্রোফোনের মাধ্যমে সরাসরি রেকর্ডিং সহ স্বর স্বীকৃতি এবং স্বরলিপি জন্য উপলব্ধ বিভিন্ন বিকল্পের দিকে আমি অনেক দীর্ঘ সময় ব্যয় করেছি, ফাইলটি এমপি 3 বা WAV ফরম্যাটে রেকর্ড করে এবং এটি কমান্ড লাইনের মাধ্যমে রূপান্তর করে সেইসাথে Chrome ব্যবহার করে। এবং অ্যান্ড্রয়েড অ্যাপ্লিকেশনগুলি

কঠোর পরিশ্রমের দিন পর এই নিবন্ধটি আমার ফলাফল তুলে ধরে।

লিনাক্স বিকল্প

লিনাক্সে শব্দভাণ্ডার এবং ভয়েস স্বীকৃতি সফ্টওয়্যার খুঁজে বের করার চেষ্টা করা সহজ এবং এটি উপলব্ধ বিকল্পগুলি যে চূড়ান্ত নয়।

এই উইকিপিডিয়া পৃষ্ঠার সম্ভাব্য বিকল্পগুলির তালিকা আছে যা CMU স্পিনক্স, জুলিয়াস এবং সাইমন সহ।

আমি SparkyLinux ব্যবহার করছি যা এই মুহূর্তে ডেবিয়ান টেস্টিং-এর উপর ভিত্তি করে তৈরি এবং আমি আপনাকে বলতে পারি যে রিপোজিটরিগুলিতে থাকা একমাত্র ভয়েস স্বীকৃতি প্যাকেজ হল স্পিনক্স।

নেটিভ লিনাক্স প্রোগ্রামগুলি আমি শেষ করেছিলাম পকেটসফিন্ক্স, যা আমি WAV ফাইলগুলি টেক্সট এবং ফ্রীসিপিএক-ভিআরতে রূপান্তরিত করেছি যা একটি পাইথন অ্যাপ্লিকেশান যা আপনাকে একটি মাইক্রোফোন থেকে সরাসরি রেকর্ড করতে দেয়।

আমি ভয়েসনোট ২ এবং ডিকট্যানট সহ কয়েকটি Chrome অ্যাপ্লিকেশানগুলিও চেষ্টা করেছি।

অবশেষে আমি "ডিক্রেটেশন এবং ইমেল" এবং "টক অ্যান্ড টক ডিকাইটেশন" অ্যান্ড্রয়েড অ্যাপস চেষ্টা করেছি।

Freespeech-ভি

ফিসস্পেক-ভিআর স্ট্যান্ডার্ড রিপোজিটরিগুলিতে পাওয়া যায় না। আমি এখানে থেকে ফাইল ডাউনলোড।

জিপ ফাইলের বিষয়বস্তু ডাউনলোড এবং এক্সট্রাক্ট করার পরে আমি একটি টার্মিনাল খুলেছিলাম এবং ফোল্ডারে যেগুলি ফাইলগুলিকে এক্সট্র্যাক করা হয়েছিল সেটিতে নেভিগেট করেছি।

আমি মুক্ত কমান্ডটি লিখেছিলাম freespeech-vr

sudo python freespeech-vr

আমার মোটামুটি সুন্দর মাইক্রোফোন এবং হেডফোনগুলির একটি জোড়া রয়েছে একটি সুস্পষ্ট দক্ষিণ ইংরেজি অ্যাকসেন্ট।

নিম্নলিখিত টেক্সট freespeech-vr উইন্ডোতে হাজির:

ইউনিট কুকুর ফলাফল স্বাগতম আজ পরিচালিত পরীক্ষা কিভাবে নিশ্চিত করা আছে পরীক্ষা করতে হবে যখন পাঠ্য পাঠ্য সিস্টেম পদ্ধতি ব্যবহার করে বক্তৃতা আমি এক প্রতিটি ছিল শুধুমাত্র একটি থাকার জন্য আশা এবং এক মুরগির অর্থ হিসাবে সিস্টেম হিসাবে সুবর্ণ Ea যখন এটি আমার নাম পরবর্তী ofch কল ফোনটি এই ফাইলটি খুব শীঘ্রই একটি মামলা হ্যান্ডস স্পেসিফিক্স গুয়েং যে ফোন একটি ফোন ভাগ করা হবে না একটি প্রশিক্ষিত এবং এবং সরঞ্জাম ভাষী ব্যবহার করুন যখন আপনি একটি ব্যবহৃত ফাইল শেষ শেষ শেষ একটি গল্পটি একটি এবং এটি ব্যবহার করে যখন এটি খুব সফলতা হয় এই লিনাক্স হিসাবে আপনি কি এড়ানো হয় না হয়

আমি শুধু এখন বলব যে এই কুকুর ওয়েবসাইট ইউনিট নয় এবং কোন সময়ে আমি গোল্ডেন মুরগির সঙ্গে কিছু করার উল্লেখ আছে আমি আসলে ভয়েস স্বীকৃতি সফ্টওয়্যার ব্যবহার প্রক্রিয়া বর্ণনা করার চেষ্টা ছিল।

আমি পিচ এবং গতি সহ কয়েকবার সফ্টওয়্যার চেষ্টা কয়েকটি কিন্তু সঠিকতা দরিদ্র ছিল।

PocketSphinx

PocketSphinx একটি WAV ফাইল গ্রহণ করতে এবং কমান্ড লাইন ব্যবহার করে এটিতে রূপান্তর করতে সক্ষম।

পকেটসফিনক্সটি ডেবিয়ান রিপোজিটরিগুলির মাধ্যমে উপলব্ধ এবং অধিকাংশ ডিস্ট্রিবিউশনগুলির জন্য উপলব্ধ হওয়া উচিত।

পকেটসফিনক্স-এর প্রধান সমস্যাটি হল যে আপনি ভয়েস স্বীকৃতি, ভাষা ফাইলসমূহ, অভিধানগুলি এবং কিভাবে সিস্টেমকে প্রশিক্ষণ দিতে পারেন সে বিষয়ে ধারণার একটি ডিগ্রি প্রয়োজন।

PocketSphinx ইনস্টল করার পরে আপনাকে CMU Sphinx ওয়েবসাইটে যেতে হবে এবং যতটা সম্ভব তথ্য পড়তে হবে। আপনি নিম্নলিখিত মডেল ফাইল ডাউনলোড করতে হবে।

(যদি আপনি একটি নেটিভ ইংরেজি স্পিকার না আপনার জন্য উপযুক্ত ভাষা মডেল নির্বাচন)।

পকেটসফিনক্স এবং স্পিনেক্সের জন্য ডকুমেন্টেশন সাধারণত লোকেদের জন্য বোঝা কঠিন কিন্তু আমি যা করতে পারি তা থেকে অভিধানগুলি সম্ভাব্য শব্দগুলির তালিকা প্রদান করতে ব্যবহৃত হয় এবং ভাষা মডেলগুলিতে সম্ভাব্য উচ্চারণগুলির একটি তালিকা থাকে

পকেটসফিনক্স পরীক্ষা করার জন্য আমি "দ্য ডেভিলস অ্যাডভোকেট" এবং "মরগ্যান ফ্রিম্যান" থেকে একটি স্নিপেট "আল প্যাচিনো" থেকে আমার নিজস্ব ভয়েস, একটি স্নিপেট ব্যবহার করেছি। এই বিন্দু বিভিন্ন কণ্ঠস্বর চেষ্টা ছিল এবং আমার জন্য মরগ্যান ফ্রিম্যান হিসাবে স্পষ্টভাবে একটি গল্প বলতে পারেন কেউ এবং কেউ আল প্যাচিনো মত একটি লাইন বিতরণ যে কেউ নেই।

PocketSphinx এর জন্য এটি একটি WAV ফাইলের প্রয়োজন এবং এটি একটি নির্দিষ্ট বিন্যাসে থাকা প্রয়োজন। যদি ফাইল এমপি 3 ফরম্যাটে থাকে তবে এটি WAV বিন্যাসে রূপান্তর করার জন্য ffmpeg কমান্ডটি ব্যবহার করুন:

ffmpeg -i ইনপুটফিলেনম.এমপিপি -3 পিসিএম_স 16 লেভেল -1000 আউটপুটফিলেননাম.উভ

PocketSphinx চালানোর জন্য নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile ভয়েস ২.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous একটি WAV ফাইল নেয় এবং পাঠাতে এটি রূপান্তরিত।

Pocketsphinx উপরে কমান্ডের মধ্যে বলা হয় "/usr/share/pocketsphinx/model/lm/en_us/cmu07a.dic" নামক একটি অভিধান ফাইল ব্যবহার করে ভাষা মডেল "cmusphinx-5.0-en-us.lm"। টেক্সট রূপান্তরিত ফাইলটি voice2.wav বলা হয় (যা আমার ভয়েস দিয়ে তৈরি একটি রেকর্ডিং)। অবশেষে 2> সব verbose আউটপুটকে স্থান করে দেয় যা আপনি প্রয়োজনে একটি ফাইলের মধ্যে প্রয়োজন যা voice2.log নামক একটি ফাইলের প্রয়োজন হয় না। পরীক্ষার প্রকৃত ফলাফল টার্মিনাল উইন্ডোর মধ্যে প্রদর্শিত হয়।

আমার ভয়েস ব্যবহার করে ফলাফল নিম্নরূপ:

এই সপ্তাহে ভাল সম্পর্কে পরের সম্পর্কে স্বাগত জানাই যা সম্পর্কে একটি মিনিট মধ্যে স্বীকৃতি সফ্টওয়্যার

ফলাফল freespeech-vr হিসাবে হিসাবে horrendous না কিন্তু এখনও ব্যবহারযোগ্য সত্যিই না। আমি তারপর আল প্যাচিনো সঙ্গে PocketSphinx ব্যবহার করে চেষ্টা কিন্তু এই সব কোন ফলাফল ফিরে।

অবশেষে আমি "ব্রুস সর্বশক্তি" মুভি থেকে মরগান ফ্রিম্যান এর ভয়েস ব্যবহার করে চেষ্টা করেছি এবং এখানে ফলাফল রয়েছে:

000000000: আমরা তার উপর করব
000000001: সব যে কঠিন হ্যাঁ দিন ডান এখন হ্যাঁ এই আমরা জীবিত ছিল সবচেয়ে আমি আমি গরম অংশ হয়
000000002: লিফ্টের মধ্যে বেসবল বাজ একটি বিট এর আউট কি কে জানে বা জীবনে কি করতে হবে জানি
000000003: পুনরূদ্ধার করা হবে কি কি?
000000004: তারা এটা লিখেছে না
000000005: তারা আমার ডান দিকে আছে
000000006: আপনার অবশ্যই নিয়ম হওয়া উচিত
000000007: আমি আপনাকে আশা করছি
000000008: এবং তিনি এখানে একটি খৃস্টান ক্রিসমাস পার্ট ছিল একটি দৃষ্টান্ত যে এখানে শিখেছি
000000009: এটি একটি লিখতে উপায় খুঁজে বের করে। গাধা আমি কয়েকটি সবসময় একটি পরেন চিন্তা
000000010: সমস্যাটি জাতিসংঘের মত ভালো না করলে আমি সেই মুহুর্তে তাদের অনুমান করবো যখন আমরা এমন সব কথা ভাবিনি যা আমি মনে করি যে আমি পৃথিবীতে আছি এবং আমি তা দেখেছি
000000011: এটি আছে একটি পিতা আছে
000000012: এই সম্পর্কে অনেক কি
000000013: যে দেওয়া আছে
000000014: অনেক কিছু যা আপনার জন্য অনেক কম না
000000015: ডান পতনের মধ্যে
000000016: শুধু আমার জন্য ভাল রাখা
000000017: এটি একটি অসুখী যদি আমি মনে করি যে তারা একটি আছে যাচ্ছে যে যে বিবাহিত সব একটি ছিল না আমরা না আমি উপায় অসদৃশ চাই

আমার পরীক্ষাটি সম্ভবত বৈজ্ঞানিক বলে বিবেচিত হতে পারে এবং পকেটসফিনক্সের ডেভেলপাররা বলে যে আমি সফ্টওয়্যারটি সঠিকভাবে ব্যবহার করছি না। ভয়েস প্রশিক্ষণ নামে একটি কৌশলও রয়েছে যা ভাল অভিধান এবং ভাষা ফাইলগুলি তৈরি করতে ব্যবহার করা যেতে পারে।

আমার অপ্রচলিত মতামত যদিও এটি দৈনন্দিন দৈনন্দিন ব্যবহারের জন্য খুবই কঠিন।

ভয়েসনোট ২

ভয়েসনোট ২ একটি ক্রোম অ্যাপ যা Google ভয়েস স্বীকৃতি API ব্যবহার করে।

আপনি যদি Chrome বা Chromium ব্রাউজার ব্যবহার করেন তবে আপনি ওয়েব দোকানের মাধ্যমে VoiceNote II ইনস্টল করতে পারেন।

ভয়েসনোট ২-এ আইকনগুলি একটি অদ্ভুত ফ্যাশন হিসেবে রাখা হয় যেমনটি আপনাকে উইন্ডোটির নীচে ভাষা সেট করতে হবে এবং সম্পাদনা বোতামটি নীচেও রয়েছে, তবে রেকর্ড বাটন উপরের ডান অবস্থানে রয়েছে।

আপনি যা করতে চান তা প্রথম ভাষা নির্বাচন করুন এবং এটি বিশ্ব আইকনে ক্লিক করে অর্জন করা সম্ভব।

রেকর্ডিং শুরু করতে, মাইক্রোফোন আইকনে ক্লিক করুন এবং আপনার মাইক্রোফোন এ কথা বলতে শুরু করুন। সেরা ফলাফলের জন্য আমি ধীরে ধীরে বলছিলাম যে এটি একটি গুরুত্বপূর্ণ বিষয় ছিল যাতে সফ্টওয়্যারটি আপগ্রেড করার সুযোগ পাবে।

ফলাফলটি নিখুঁত নাও হতে পারে:

হ্যালো এবং সংযোগে স্বাগতম। আজকের প্রবন্ধটি পাঠ্য রূপান্তর ডুনলম ফার্রেলে ২008 সালের মন্দা সম্পর্কে রূপান্তর হিসাবে অনুবাদ করা হয়েছে এবং এটি ভালভাবে সমর্থন করেছে যে আমি 2014debian বা rpm প্যাকেজটি দেখানোর জন্য ভয়েস টেক্সট অ্যাডোনন খুঁজে পেয়েছি, আপনি এটি নির্বাচন করতে চাইলে এটিতে লেখাটি ভয়েস টাইপটি খুলুন বনাম এডিনবার্গ ফরাসি জার্মানে নির্বাচিত আপনি সমুদ্র microphonth সময়ে যুক্ত reignstart সময় পেতে আপনি একটি টেক্সট ফাইল হিসাবে আপনার লেখা লিখতে সমাপ্ত ভাল এটি ভাল জন্য দক্ষিণ দক্ষিণ থেকে খুব মানচিত্র ইংরেজি উচ্চারণ এর কিন্তু আমি এই torrentalong পাঠ্যবক্সে যাচ্ছি প্রকৃত দস্তাবেজের সাথে এবং আপনি যে ভুলগুলি আপনার শোনা কথাবার্তার জন্য তৈরি করেছেন তা দেখতে পারেন

Dictanote

Dictanote আরেকটি ক্রোম অ্যাপ যা নিখুঁত উদ্দেশ্যে ব্যবহার করা যেতে পারে এবং আরও স্বজ্ঞাত হিসাবে জুড়ে এসেছিল কিন্তু ফলাফলটি ভয়েসনোট ২ এর চেয়ে ভালো ছিল না।

আমি শুধুমাত্র ডিকট্যান্টের ডেমো সংস্করণটি ব্যবহার করে যা আপনাকে নতুন নথিগুলি তৈরি করার থেকে বাধা দেয় কিন্তু এটি আপনাকে এডিটরে ইতিমধ্যেই পাঠ্য-এর উপর কথা বলতে দেয়। আমি ভয়েস স্বীকৃতি পরীক্ষা করতে সক্ষম ছিল কিন্তু ফলাফল ভয়েসনোট দ্বিতীয় তুলনায় কোন ভাল ছিল এবং তাই আমি প্রো সংস্করণ জন্য সাইন আপ না।

ডিক্রেটেশন এবং মেইল

"ডিক্রেটেশন অ্যান্ড মেল" একটি অ্যান্ড্রয়েড অ্যাপ্লিকেশন যা স্থানীয় Google ভয়েস স্বীকৃতি API ব্যবহার করে।

"বিন্দু এবং মেল" এর ফলাফল এই বিন্দু পর্যন্ত চেষ্টা করার অন্য কোন প্রোগ্রামের চেয়ে অনেক ভালো ছিল।

হ্যালো লিনাক্সে স্বাগত জানাই। আজকে আমরা সাউন্ড টু টেক্সট রূপান্তর করার কথা বলছি

"ডিকেশন এবং মেল" এর সাথে কৌতূহল ধীরে ধীরে এবং pronunciate কথা বলার পাশাপাশি আপনি একটি এমনকি অ্যাকসেন্টের সাথেও করতে পারেন।

আপনার কথা শেষ হওয়ার পর আপনি নিজের কাছে ফলাফল ইমেল করতে পারেন।

কথোপকথন এবং কথা বলা ডিক্যায়েটিশন

অন্য অ্যান্ড্রয়েড অ্যাপ্লিকেশন যা আমি চেষ্টা করেছিলাম "টক এবং টক ডিকটেশন" ছিল।

এই অ্যাপ্লিকেশন জন্য ইন্টারফেস গুচ্ছ শ্রেষ্ঠ ছিল এবং ভয়েস স্বীকৃতি প্রকৃতপক্ষে সত্যিই খুব ভাল কাজ। শ্রোতা রেকর্ড করার পরে আমি ইমেল মাধ্যমে বিভিন্ন উপায়ে ফলাফল ভাগ করতে সক্ষম ছিল।

লিনাক্স about.com এ স্বাগত জানাই আজ আমরা বক্তৃতা থেকে পাঠ্য পাঠাতে কথা বলছি

আপনি উপরের টেক্সট দেখতে হিসাবে সম্ভবত আপনি পেতে আশা করতে পারেন হিসাবে হিসাবে পরিষ্কার দেখতে পারেন। ধীরে ধীরে কথা বলা কী কী।

সারাংশ

নেটিভ লিনাক্স কিছু ভয়েস স্বীকৃতি এবং বিশেষভাবে dictation সঙ্গে যেতে উপায় আছে। কিছু অ্যাপ্লিকেশন আছে যা Google Voice API ব্যবহার করে কিন্তু তারা এখনও সংগ্রহস্থলগুলিতে তালিকাভুক্ত নয়।

ChromeOS অ্যাপ্লিকেশনগুলি সামান্য একটু ভাল কিন্তু আমার অ্যান্ড্রয়েড ফোন ব্যবহার করে আমি সেরা ফলাফল অর্জন করেছি। হয়তো ফোনটি একটি ভাল মাইক্রোফোন আছে এবং তাই ভয়েস স্বীকৃতি সফ্টওয়্যার রূপান্তর একটি ভাল সুযোগ দাঁড়িয়েছে।

ভয়েস স্বীকৃতি সত্যিই ব্যবহারযোগ্য হওয়ার জন্য এটি কম সেটআপ প্রয়োজন সঙ্গে আরো স্বজ্ঞাত হতে হবে। আপনি বোধগম্য করতে যাতে ভাষা মডেল এবং অভিধানের সাথে মেসেঞ্জার প্রয়োজন নেই।

আমি প্রশংসা করি যে ভয়েস স্বীকৃতি সমগ্র শিল্প খুব চ্যালেঞ্জিং কারণ সবাই এর একটি ভিন্ন ভয়েস আছে এবং এক দেশের অঞ্চলের থেকে অনেক অঞ্চলের অঞ্চল আছে সারা পৃথিবীতে ব্যবহৃত শত শত ভাষার সম্পর্কে উদ্বেজক।

সুতরাং আমার বিশ্লেষণ, যে ভয়েস স্বীকৃতি সফ্টওয়্যার এখনও অগ্রগতিতে কাজ করছে