სკანირება და OCR

კარგი შუადღე

ალბათ თითოეული ჩვენგანის წინაშე აღმოჩნდა ამოცანა, როდესაც საჭიროა ელექტრონული ფორმით ქაღალდის დოკუმენტის თარგმნა. ეს განსაკუთრებით აუცილებელია მათთვის, ვინც სწავლობს, მუშაობს დოკუმენტაციასთან, თარგმნის ტექსტები ელექტრონული ლექსიკონების გამოყენებით და ა.შ.

ამ სტატიაში მინდა გავუზიარო ამ პროცესის ზოგიერთი საფუძველი. ზოგადად, სკანირება და ტექსტი აღიარება საკმაოდ შრომატევადი ხდება, რადგან უმეტესი ოპერაციები უნდა გაკეთდეს ხელით. ჩვენ ვცდილობთ გავიგოთ რა, როგორ და რატომ.

ყველას არ ესმის ერთი რამ. სკანირების შემდეგ (სკანირების ყველა ფურცელი) თქვენ გექნებათ სურათების BMP, JPG, PNG, GIF (შეიძლება იყოს სხვა ფორმატები). ასე რომ, ამ სურათზე უნდა მიიღოთ ტექსტი - ეს პროცედურა აღიარებულია. ამ მიზნით და წარმოდგენილი იქნება ქვემოთ.

შინაარსი

  • 1. რა საჭიროა სკანირებისა და აღიარებისათვის?
  • 2. ტექსტის სკანირების პარამეტრები
  • 3. დოკუმენტის ტექსტის აღიარება
    • 3.1 ტექსტი
    • 3.2 სურათები
    • 3.3 მაგიდები
    • 3.4 არასაჭირო ნივთები
  • 4. PDF / DJVU ფაილების აღიარება
  • 5. სამუშაოს შედეგების შემოწმება და შენახვა

1. რა საჭიროა სკანირებისა და აღიარებისათვის?

1) სკანერი

ტექსტის სახით ბეჭდური დოკუმენტების თარგმნა, თქვენ ჯერ უნდა სკანერი და, შესაბამისად, "მშობლიური" პროგრამები და მძღოლები, რომლებიც მასთან ერთად წავიდნენ. მათთან ერთად შეგიძლიათ სკანირების დოკუმენტი და შეინახოთ ეს შემდგომი დამუშავება.

თქვენ შეგიძლიათ გამოიყენოთ სხვა ანალოგი, მაგრამ პროგრამული უზრუნველყოფა, რომ მოვიდა სკანერი ნაკრები ჩვეულებრივ მუშაობს უფრო სწრაფად და აქვს მეტი პარამეტრები.

დამოკიდებულია იმაზე, თუ რა ტიპის სკანერი გაქვთ - სამუშაო სიჩქარე მნიშვნელოვნად განსხვავდება. არსებობს სკანერები, რომლებიც მიიღებენ სურათს ფურცელზე 10 წამში, არის პირობა, რომელიც მიიღებს მას 30 წამში. თუ წიგნის სკანირება 200-300 ფურცლებზე - მე ვფიქრობ, რომ არ არის რთული გამოთვლა, თუ რამდენჯერ იქნება განსხვავება დროში?

2) აღიარების პროგრამა

ჩვენს სტატიაში მე გაჩვენებთ მუშაობას ერთ-ერთ საუკეთესო პროგრამას სკანირებისთვის და აბსოლუტურად ნებისმიერი დოკუმენტის აღიარებისთვის - ABBYY FineReader. წლიდან პროგრამა გადახდილი, მაშინვე მე მივცემ ბმულს სხვა - მისი თავისუფალი ანალოგი Cunei ფორმა. მართალია, მე არ შევადარებ მათ, იმის გამო, რომ FineReader ყველაფერთან გაიმარჯვებს, ვცდილობ, რომ ეს ყველაფერი იგივე იყოს.

ABBYY FineReader 11

ოფიციალური საიტი: //www.abbyy.ru/

ერთ-ერთი საუკეთესო პროგრამა. იგი განკუთვნილია სურათის ტექსტის აღიარებაზე. აშენდა ბევრი პარამეტრები და ფუნქციები. მას შეუძლია განაწესოს ფურცლების რევოლუცია, თუმცა ხელნაწერის ვერსიებს უჭერს მხარს (თუმცა მე პირადად არ ვცდილობდი, ვფიქრობ კარგია ხელნაწერი ვერსიის აღიარება, თუ არ გაქვთ სრულყოფილი კალიგრაფიული ხელწერა). მასთან მუშაობის შესახებ დამატებითი ინფორმაცია განხილული იქნება ქვემოთ. აქვე აღვნიშნავთ, რომ სტატიაში გადაცემული იქნება პროგრამა 11 ვერსიაში.

როგორც წესი, ABBYY FineReader- ის სხვადასხვა ვერსიები ერთმანეთისგან განსხვავებული არ არის. თქვენ შეგიძლიათ მარტივად გააკეთოთ სხვა. ძირითადი განსხვავებები შეიძლება იყოს მოხერხებულობის, პროგრამისა და მისი შესაძლებლობების სიჩქარეში. მაგალითად, ადრე ვერსიები უარს ამბობენ PDF დოკუმენტისა და DJVU ...

3) დოკუმენტების სკანირება

დიახ, ასე რომ, გადავწყვიტე დოკუმენტების ცალკე სვეტში ამოიღო. ხშირ შემთხვევაში, სკანირება ნებისმიერი სახელმძღვანელოები, გაზეთები, სტატიები, ჟურნალები და ა.შ. იმ წიგნებსა და ლიტერატურას, რომელიც ითხოვს. რა მივდივარ პირადი გამოცდილება, შემიძლია ვთქვა, რომ ბევრი რამ გსურთ სკანირება - შეიძლება უკვე ქსელში! რამდენჯერ მე პირადად გადაარჩინე დრო, როდესაც აღმოვაჩინე ერთი წიგნი ან სხვა უკვე ქსელში. მე მქონდა მხოლოდ ტექსტის კოპირება დოკუმენტში და განაგრძო იგი.

ამ მარტივი რჩევით - სანამ სკანირებას მოახდენთ, შეამოწმეთ თუ ვინმემ უკვე დასკანირებული და არ დაგჭირდებათ თქვენი დრო დაგვრჩა.

2. ტექსტის სკანირების პარამეტრები

აქ არ ვილაპარაკებ სკანერის შესახებ თქვენს სკანერებზე, პროგრამებთან, რომლებთანაც წავიდა, რადგან ყველა სკანერის მოდელი განსხვავებულია, პროგრამული უზრუნველყოფა ასევე განსხვავებულია ყველგან და გამოცნობა და კიდევ უფრო ნათლად აჩვენებს, თუ როგორ განახორციელოს ოპერაცია არარეალურია.

მაგრამ ყველა სკანერს აქვს იგივე პარამეტრები, რაც დიდ გავლენას მოახდენს თქვენი მუშაობის სიჩქარესა და ხარისხზე. აქ მათ შესახებ მე აქ ვილაპარაკებ. მე დავწერ წესრიგს.

1) სკანირების ხარისხი - DPI

თავდაპირველად, სკანირების ხარისხის პარამეტრი არ არის 300 DPI- ზე ნაკლები. სასურველია, კიდევ უფრო მეტიც, თუ ეს შესაძლებელია. უფრო მაღალია DPI მაჩვენებელი, უფრო ნათელი გახდება თქვენი სურათი და ასე შემდეგ, კიდევ უფრო დამუშავება გაიმართება. გარდა ამისა, უმაღლესი ხარისხის სკანირება - ნაკლებად შეცდომები მოგვიანებით უნდა გამოსწორდეს.

საუკეთესო ვარიანტია, როგორც წესი, 300-400 DPI.

2) chromaticity

ეს პარამეტრი დიდ გავლენას ახდენს სკანირების დროს (სხვათა შორის, DPI ასევე მოქმედებს, მაგრამ ისინი იმდენად ძლიერია და მხოლოდ მაშინ, როდესაც მომხმარებელი მაღალ ფასეულობებს ადგენს).

ჩვეულებრივ, არსებობს სამი რეჟიმი:

- შავი და თეთრი (სრულყოფილი ტექსტისთვის);

- ნაცრისფერი (შესაფერისი მაგიდები და სურათები ტექსტით);

- ფერი (ფერადი ჟურნალების, წიგნების, ზოგადად, დოკუმენტებისთვის, სადაც ფერი მნიშვნელოვანია).

როგორც წესი, სკანირების დრო დამოკიდებულია ფერის არჩევანზე. ყოველივე ამის შემდეგ, თუ თქვენ გაქვთ დიდი დოკუმენტი, თუნდაც ზედმეტი 5-10 წამი გვერდზე, როგორც მთლიანად მოჰყვება ღირსეული დრო ...

3) ფოტოები

თქვენ შეგიძლიათ მიიღოთ დოკუმენტი არა მხოლოდ სკანირების გზით, არამედ სურათის აღებით. როგორც წესი, ამ შემთხვევაში თქვენ გექნებათ სხვა პრობლემები: გამოსახულების დამახინჯება, დაბინდვა. ამის გამო, მას შეუძლია მოითხოვოს მიღებული ტექსტის აღარ შემდგომი რედაქტირება და დამუშავება. პირადად მე არ ვურჩევ ამ კამერისთვის კამერების გამოყენებას.

მნიშვნელოვანია აღინიშნოს, რომ ყველა ასეთი დოკუმენტი არ იქნება აღიარებული, რადგან სკანირების ხარისხი ის ძალიან დაბალია ...

3. დოკუმენტის ტექსტის აღიარება

ჩვენ ვივარაუდოთ, რომ სანთელი გვერდები დასკანირებული თქვენ მიიღო. ყველაზე ხშირად ისინი ფორმატები: tif, bmb, jpg, png. ზოგადად, ABBYY FineReader - ეს არ არის ძალიან მნიშვნელოვანი ...

ABBYY FineReader- ში სურათის გახსნის შემდეგ, პროგრამა, როგორც წესი, კომპიუტერზე იწყებს ტერიტორიების შერჩევას და აღიარებს მათ. მაგრამ ხანდახან ის არასწორია. ამისათვის ჩვენ თვითონ სასურველი ტერიტორიების შერჩევა მიგვაჩნია.

მნიშვნელოვანია! ყველას არ დაუყოვნებლივ ესმის, რომ პროგრამაში დოკუმენტის გახსნის შემდეგ გამოჩნდება ფანჯრის მარცხენა მხარეს, რომელიც ხაზს უსვამს სხვადასხვა სფეროს. ღილაკზე "აღიარების" ღილაკზე დაწკაპუნების შემდეგ, ფანჯარაში პროგრამაში ჩაიწერება მზა ტექსტი. აღიარების შემდეგ, სხვათა შორის, სასურველია შეამოწმოს ტექსტი შეცდომებისთვის იმავე FineReader.

3.1 ტექსტი

ეს ტერიტორია გამოყენებულია ტექსტიზე. სურათები და მაგიდები უნდა გამოირიცხოს მისგან. იშვიათი და არაჩვეულებრივი შრიფტები უნდა შეიყვანოთ ხელით ...

ტექსტის არეალის შესარჩევად, ყურადღება მიაქციეთ FineReader- ის ზედა პანელს. არსებობს ღილაკი "T" (იხ. ქვემოთ ეკრანი, მაუსის კურსორი მხოლოდ ამ ღილაკს). დაწკაპეთ მასზე, შემდეგ სურათზე აირჩიეთ შერჩეული neatly მართკუთხა ტერიტორია, რომელშიც ტექსტი მდებარეობს. სხვათა შორის, ზოგიერთ შემთხვევაში თქვენ უნდა შექმნან 2-3 ბლოკის ბლოკირება, ზოგჯერ 10-12 თითო გვერდზე ტექსტის ფორმატირება შეიძლება იყოს განსხვავებული და არ შეარჩიოთ მთელი ტერიტორია ერთი ოთხკუთხედის გამოყენებით.

მნიშვნელოვანია აღინიშნოს, რომ სურათები არ უნდა მოხვდეს ტექსტის არეში! მომავალში, ის დიდ დროს გადაარჩენს ...

3.2 სურათები

გამოიყენება სურათებისა და იმ ტერიტორიების გაშუქება, რომლებიც ძნელია აღიარონ ცუდი ხარისხის ან უჩვეულო შრიფტის გამო.

ეკრანის ქვედანაყოფში, მაუსის კურსორი მდებარეობს ღილაკზე "სურათის" არეალის შესარჩევად. სხვათა შორის, ამ გვერდის აბსოლუტურად ნებისმიერი ნაწილი შეიძლება შეირჩეს და FineReader- მა მას დოკუმენტში ჩაწეროს ნორმალური სურათი. ანუ უბრალოდ "სულელი" კოპირება ...

როგორც წესი, ეს ტერიტორია გამოიყენება ცუდი დასკანერებული ცხრილების გაშუქებაზე, რათა გამოავლინოს არასტანდარტული ტექსტი და შრიფტი, გამოსახულებები.

3.3 მაგიდები

ეკრანის ქვედანაყოფები აჩვენებს ღილაკს ხაზების გასახსნელად. ზოგადად, პირადად მე ძალიან იშვიათად ვიყენებ. ფაქტია, რომ თქვენ გექნებათ საკმაოდ რეგულარულად მიაპყროს (ფაქტობრივად) თითოეული ხაზი მაგიდაზე და აჩვენებს რა და როგორ პროგრამა. თუ მაგიდა არის პატარა და არა ძალიან კარგი ხარისხის, გირჩევთ გამოიყენოთ "სურათი" ფართობი ამ მიზნით. რითაც გადარჩენა ბევრი დრო, და მაშინ სწრაფად მაგიდასთან Word საფუძველზე სურათზე.

3.4 არასაჭირო ნივთები

მნიშვნელოვანია აღინიშნოს. ზოგჯერ გვერდია ზედმეტი ელემენტები, რომლებიც ძნელია აღიაროს ტექსტი ან არ დაუშვას სასურველი ტერიტორია. ისინი შეიძლება ამოღებულ იქნას "საშლელი".

ამისათვის გადადით იმიჯის რედაქტირების რეჟიმში.

აირჩიეთ საშლელი ინსტრუმენტი და აირჩიეთ არასასურველი ტერიტორია. ეს იქნება წაშლილი და მისი ადგილი იქნება თეთრი ფურცელი.

სხვათა შორის, გირჩევთ ამ ვარიანტის გამოყენებას, როგორც ყოველთვის, რაც შეიძლება. სცადეთ ყველა ტექსტური ველი, რომელიც არჩეულია, სადაც არ არის საჭირო ტექსტის ნაჭერი, ან რაიმე ზედმეტი ქულები, უხერხულობა, დამახინჯება - წაშლა Eraser. მადლობა ამ აღიარების სწრაფად!

4. PDF / DJVU ფაილების აღიარება

ზოგადად, ამ აღიარების ფორმატი სხვისგან განსხვავდება - ანუ. თქვენ შეგიძლიათ იმუშაოთ ისევე როგორც სურათები. ერთადერთი, რაც პროგრამა არ უნდა იყოს ძველი ვერსია, თუ არ გახსნა PDF / DJVU ფაილები - განაახლეთ ვერსია 11-მდე.

პატარა რჩევა. დოკუმენტის გახსნის შემდეგ FineReader - ის ავტომატურად დაიწყებს აღიაროს დოკუმენტი. ხშირად PDF / DJVU ფაილებში, სპეციფიკური არეალი გვერდი არ არის საჭირო მთელ დოკუმენტში! ასეთი გვერდის წაშლა ყველა გვერდს, გააკეთეთ შემდეგი:

1. გადასვლა გამოსახულების რედაქტირების განყოფილებაში.

2. "ჩატვირთვის" პარამეტრის ჩართვა.

3. აირჩიეთ გვერდი, რომელიც გჭირდებათ ყველა გვერდს.

4. დააჭირეთ ვრცელდება ყველა გვერდს და მორთვა.

5. სამუშაოს შედეგების შემოწმება და შენახვა

როგორც ჩანს, შეიძლება კვლავ იყოს პრობლემები, როდესაც ყველა სფერო შეირჩა, შემდეგ აღიარა - მიიღოს და შეინახეთ ... ეს არ იყო იქ!

პირველი, ჩვენ გვჭირდება შემოწმება დოკუმენტი!

ამის საშუალებას მისცემს მას შემდეგ, რაც აღიარების შემდეგ, მარჯვენა ფანჯარაში იქნება "შემოწმება" ღილაკი, ქვემოთ იხილეთ სკრინშოტი. მას შემდეგ დაწკაპვით, FineReader პროგრამა ავტომატურად გიჩვენებთ ისეთ სფეროებს, სადაც პროგრამის შეცდომები და ვერც საიმედოდ განსაზღვრავს ერთი ან მეორე სიმბოლო. თქვენ მხოლოდ უნდა აირჩიოთ, ან ეთანხმებით პროგრამის აზრს, ან შეიტანეთ ხასიათი.

სხვათა შორის, ნახევარ შემთხვევაში, პროგრამა, შემოგთავაზებთ მზადაა სწორი სიტყვა - უბრალოდ უნდა გამოიყენოთ თაგუნა აირჩიოს ვარიანტი გსურთ.

მეორეც, შემოწმების შემდეგ თქვენ უნდა აირჩიოთ ფორმატი, რომელშიც დაზოგავთ თქვენს მუშაობას.

აქ FineReader გაძლევთ მხრივ სრულიად: შეგიძლიათ უბრალოდ გადასცეს ინფორმაცია Word ერთი და თქვენ შეგიძლიათ შეინახოთ იგი ერთ ათეულობით ფორმატში. მაგრამ მინდა კიდევ ერთი მნიშვნელოვანი ასპექტი გავუსვა ხაზი. როგორი ფორმატი არ უნდა აირჩიოთ, უფრო მნიშვნელოვანია აირჩიოს ასლი! განვიხილოთ ყველაზე საინტერესო ვარიანტი ...

ზუსტი ასლი

ყველა სფეროში, რომელიც თქვენს მიერ შერჩეულ დოკუმენტში შეარჩია, ზუსტად შეესაბამება წყაროს დოკუმენტში. ძალიან მოსახერხებელი ვარიანტი, როდესაც მნიშვნელოვანია, რომ არ დაკარგოთ ტექსტის ფორმატირება. სხვათა შორის, შრიფტები ასევე ძალიან ჰგავს ორიგინალს. ვურჩევ ამ ვარიანტს, რომ დოკუმენტი გადაეგზავნოს სიტყვას, რათა გაგრძელდეს მუშაობა.

რედაქტირებადი ასლი

ეს ვარიანტი კარგია, რადგან ტექსტის უკვე ფორმატირებული ვერსია გაქვთ. ანუ "კილომეტრი", რომელიც შეიძლება ყოფილიყო ორიგინალი დოკუმენტით - თქვენ არ შეხვდებით. სასარგებლო ვარიანტი, როდესაც თქვენ მნიშვნელოვნად შეცვლით ინფორმაციას.

მართალია, არ უნდა აირჩიოთ, თუ მნიშვნელოვანია, რომ შეინარჩუნოთ დიზაინი, შრიფტები, შიგთავსი. ზოგჯერ, თუ აღიარება არ არის ძალიან წარმატებული - თქვენი დოკუმენტი შეიძლება "ჩქარობს" შეცვლილი ფორმატირების გამო. ამ შემთხვევაში, სასურველია აირჩიოს ზუსტი ასლი.

უბრალო ტექსტი

ვარიანტი, ვისაც სჭირდება მხოლოდ ტექსტი გვერდიდან ყველაფრის გარეშე. შესაფერისია დოკუმენტებისა და ცხრილების გარეშე.

ეს ასრულებს დოკუმენტის სკანირებას და აღიარების სტატიას. იმედი მაქვს, რომ ამ მარტივი რჩევების დახმარებით შეგიძლია გადაჭრას თქვენი პრობლემები ...

გისურვებთ წარმატებას!