ტექსტის აღიარება უფასო პროგრამა - ანალოგი FineReader

ადრე თუ გვიან, ყველას, ვინც ხშირად მუშაობს საოფისე პროგრამებზე, აკმაყოფილებს წიგნს, ჟურნალს, გაზეთს, უბრალოდ ბუკლეტებს, შემდეგ კი ამ სურათებს ტექსტურ ფორმატში თარგმნის, მაგალითად, Word დოკუმენტში.

ამისათვის საჭიროა სკანერი და სპეციალური პროგრამის ტექსტი აღიარება. ეს სტატია განიხილავს FineReader- ის უფასო ანალოგს -კუნიფორმა (FineReader- ში ცნობის შესახებ - იხილეთ ეს მუხლი).

დავიწყოთ ...

შინაარსი

  • 1. CuneiForm პროგრამის თვისებები
  • 2. ტექსტის აღიარების მაგალითი
  • Batch ტექსტის აღიარება
  • 4. დასკვნები

1. CuneiForm პროგრამის თვისებები

კუნიფორმა

თქვენ შეგიძლიათ ჩამოტვირთოთ დეველოპერის საიტზე: http://cognitiveforms.com/

ღია ტექსტის ამოცნობის პროგრამული უზრუნველყოფა. გარდა ამისა, იგი მუშაობს ყველა ვერსიის Windows: XP, Vista, 7, 8, რომელიც სასიამოვნოა. გარდა ამისა, დაამატეთ პროგრამის სრული რუსული თარგმანი!

დადებითი:

- ტექსტის აღიარება მსოფლიოს 20 ყველაზე პოპულარულ ენაზე (ინგლისურად და რუსულად შედის ამ ნომერზე);

- დიდი მხარდაჭერა სხვადასხვა ბეჭდვითი შრიფტები;

- შეამოწმეთ ლექსიკონის აღიარებული ტექსტი;

- მუშაობის შედეგების შენახვა რამდენიმე გზით;

- დოკუმენტის სტრუქტურის შენარჩუნება;

- შესანიშნავი მხარდაჭერა და აღიარება მაგიდები.

Cons:

- არ უჭერს მხარს ძალიან დიდი დოკუმენტები და ფაილები (მეტი 400 dpi);

- არ უჭერს მხარს ზოგიერთი ტიპის სკანერები პირდაპირ (კარგად, ეს არ არის საშინელი, სპეციალური სკანერი შედის სკანერი მძღოლებთან);

- დიზაინი არ ბრწყინავს (მაგრამ ვინ საჭიროებს მას, თუ პროგრამა მთლიანად წყვეტს პრობლემას).

2. ტექსტის აღიარების მაგალითი

ჩვენ ვივარაუდოთ, რომ თქვენ უკვე მიიღეს აღიარების საჭირო სურათების მიღება (სკანირებული ან გადმოწერეთ წიგნი pdf / djvu ფორმატში ინტერნეტში და მიიღეს საჭირო სურათები მათგან, როგორ გავაკეთოთ ეს მუხლი).

1) გახსენით სასურველი გამოსახულება CuineForm პროგრამაში (ფაილი / გახსნა ან "Cntrl + O").

2) აღიარების დასაწყებად - თქვენ უნდა აირჩიოთ სხვადასხვა სფერო: ტექსტი, სურათები, მაგიდები და ა.შ. Cuneiform პროგრამაში ეს შეიძლება გაკეთდეს არა მარტო ხელით, არამედ ავტომატურად! ამისათვის დააჭირეთ "მარკირებას" ღილაკს ფანჯრის ზედა პანელში.

3) შემდეგ 10-15 წამი. პროგრამა ავტომატურად აჩვენებს ყველა სფეროს სხვადასხვა ფერები. მაგალითად, ტექსტი ფართობი არის ლურჯი. სხვათა შორის, მან ხაზი გაუსვა ყველა სფეროს სწორად და საკმაოდ სწრაფად. პატიოსნად, მე არ ველით ასეთი სწრაფი და სწორი პასუხი მისი ...

4) მათთვის, ვინც არ ენდობით ავტომატური მარკირებას, შეგიძლიათ გამოიყენოთ სახელმძღვანელო. ამისათვის არის პანელი (იხილეთ სურათზე), რომლის წყალობით შეგიძლიათ აირჩიოთ: ტექსტი, ცხრილი, სურათი. გადაადგილება, გაზრდა / შემცირება თავდაპირველი სურათი, მორთვა კიდეები. ზოგადად, კარგი ნაკრები.

5) ყველა სფეროს შემდეგ აღინიშნება, შეგიძლიათ გააგრძელოთ აღიარება. ამისათვის უბრალოდ დააჭირეთ ღილაკს იმავე სახელის, როგორც სურათზე ქვემოთ.

6) სიტყვასიტყვით 10-20 წამში. თქვენ იხილავთ დოკუმენტს Microsoft Word- ში აღიარებული ტექსტით. რა არის საინტერესო, ამ მაგალითის ტექსტში, რა თქმა უნდა, იყო შეცდომები, მაგრამ ძალიან ცოტა მათგანია! განსაკუთრებით, იმის გათვალისწინებით, თუ რამდენად ბრმა ორიგინალური მასალა იყო - სურათი.

სიჩქარე და ხარისხი საკმაოდ შედარებით FineReader!

Batch ტექსტის აღიარება

პროგრამის ეს ფუნქცია შეიძლება მოსახერხებელი იყოს, როდესაც საჭიროა არა ერთი სურათის აღიარება, არამედ რამდენიმეჯერ. მანიპულაცია იწყებს სურათების აღიარებას, როგორც წესი, ჩაირთვება დაწყების მენიუში.

1) პროგრამის გახსნის შემდეგ თქვენ უნდა შექმნან ახალი პაკეტი ან გახსენით ადრე შენახული. ჩვენს მაგალითში - შექმენით ახალი.

2) მომდევნო ეტაპზე ჩვენ გვყავს სახელი, სასურველია, რომ ექვსი თვის შემდეგ გავიხსენოთ ის, რაც ინახება მასში.

3) შემდეგ, აირჩიეთ დოკუმენტის ენა (რუსულ-ინგლისური), მიუთითეთ, არის თუ არა სკანირებული მასალის სურათები და მაგიდები.

4) ახლა თქვენ უნდა მიუთითოთ საქაღალდე, სადაც აღიარების ფაილები მდებარეობს. სხვათა შორის, საინტერესოა, რომ პროგრამა თავად იხილავს ყველა სურათს და სხვა გრაფიკულ ფაილებს, რომლითაც ისინი აღიარებენ და დაამატებენ პროექტს. თქვენ ასევე უნდა ამოიღონ ზედმეტი.

5) შემდეგი ნაბიჯი არ არის მნიშვნელოვანი - აირჩიოს რა უნდა გააკეთოს წყაროს ფაილი, აღიარების შემდეგ. მე გირჩევთ აირჩიოთ ჩამრთველი "არაფერი".

6) რჩება მხოლოდ ფორმატის შერჩევა, რომელშიც აღიარებული დოკუმენტი შეინახება. არსებობს რამდენიმე ვარიანტი:

- rtf - ტექსტის დოკუმენტის ფაილი გახსნილია ყველა პოპულარული ოფისით (მათ შორის უფასო პირობა, პროგრამების ბმული);

- txt - ტექსტის ფორმატი, შეგიძლიათ შეინახოთ მხოლოდ ტექსტი, სურათები და მაგიდები;

- htm - ჰიპერტექსტის გვერდი, მოსახერხებელია თუ დააინსტალირეთ და დააფიქსირეთ ფაილი. მისი და აირჩიოს ჩვენს მაგალითზე.

7) "Finish" ღილაკზე დაწკაპუნების შემდეგ თქვენი პროექტის დამუშავება დაიწყება.

8) პროგრამა საკმაოდ სწრაფად მუშაობს. აღიარების შემდეგ, თქვენ დაინახავთ ჩანართს htm ფაილებით. თუ ასეთ ფაილს დააჭირეთ, ბრაუზერი იწყება, სადაც შეგიძლიათ იხილოთ შედეგები. სხვათა შორის, პაკეტი შეიძლება შეინახოს შემდგომი მუშაობა.

9) როგორც ხედავთ შედეგები მუშაობა ძალიან შთამბეჭდავია. პროგრამა ადვილად აღიარებდა სურათს და ადვილად აღიარებდა მის ტექსტს. მიუხედავად იმისა, რომ პროგრამა უფასოა, ეს ზოგადად სუპერ!

4. დასკვნები

თუ ხშირად არ სკანირების და დოკუმენტების აღიარება, მაშინ ყიდულობენ FineReader ალბათ არ აზრი. CuneiForm ადვილად მართავს ყველაზე ამოცანები.

მეორეს მხრივ, მას ასევე აქვს უარყოფითი მხარეები.

პირველ რიგში, არსებობს ძალიან ცოტა ინსტრუმენტი, რომლის შედეგადაც რედაქტირება და შედეგების შემოწმება. მეორე, როდესაც თქვენ უნდა აღიაროს ბევრი სურათები, მაშინ FineReader უფრო მოსახერხებელია დაუყოვნებლივ დაინახავს ყველაფერი დაემატა პროექტის სვეტი უფლება: სწრაფად ამოიღონ ზედმეტი, რედაქტირება და ა.შ. და მესამე, დოკუმენტების აბსოლუტურად ცუდი ხარისხის, CuneiForm კარგავს აღიარება: საჭიროა დოკუმენტის გააზრება - სწორი შეცდომები, დააყენოთ პუნქტუაციის ნიშნები, ციტატები და ა.შ.

ეს ყველაფერი. იცით თუ არა რაიმე სხვა ღირსეული უფასო ტექსტური ამოცნობის პროგრამული უზრუნველყოფა?